在“3_人民日报语料”中统计“日语借词”的词频;
生活随笔
收集整理的這篇文章主要介紹了
在“3_人民日报语料”中统计“日语借词”的词频;
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
3. 在“3_人民日?qǐng)?bào)語(yǔ)料”中統(tǒng)計(jì)“日語(yǔ)借詞”的詞頻;
pyhton方法
# -*- coding: utf-8 -*- import json japanese_words_file = open('japanese_words.txt') # japanese_words.txt是日語(yǔ)借用詞 japanese_words = [] # list 用于存儲(chǔ)日語(yǔ)借用詞 for i in japanese_words_file:japanese_words.append(i.replace('\r\n', '')) japanese_words_file.close() data_file = open('3.txt') # 3.txt 是人民日?qǐng)?bào)語(yǔ)料 result = {} # 存儲(chǔ)詞頻統(tǒng)計(jì)結(jié)果 for i in data_file:word_lists = i.split()for each_word in word_lists:word = each_word.split('/')[0]if word in japanese_words:if word in result:result[word] += 1else:result[word] = 1 data_file.close() print json.dumps(result, encoding="UTF-8", ensure_ascii=False) # 輸出結(jié)果總結(jié)
以上是生活随笔為你收集整理的在“3_人民日报语料”中统计“日语借词”的词频;的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 去掉“3_人民日报语料”中每行前边的数字
- 下一篇: Leetcode-260. 只出现一次的