【发布时间】:2020-02-04 06:48:40
【问题描述】:
我有一个冰岛语单词对列表,它们拼写相似但意思不同(例如 leyti 和 leiti、kyrkja 和 kirkja)。该列表只是单个元素列表,而不是元组列表(所以只是 [leyti, leiti, kyrkja, kirkja])。我正在使用一个大语料库来获取每个单词的频率,所以我可以得到例如 leyti = 频率 3000、leiti = 频率 500 等。我想在从语料库中获取频率的同时保留这些对。目前我正在遍历单词列表并将每个单词与我从大语料库中获得的频率列表进行比较,这会产生一个 f.ex 字典。 {leyti: 3000, leiti:500} 等等。所以基本上我正在这样做:
def findfreq():
freqdic = findfreq() # a dictionary with all the words in the corpus and their frequencies
ywords = listofwords() # the list of words
yfreq = {} # resulting dictionary with the word from the wordlist and it's frequency as it is in the corpus
for i in ywords:
for key, value in freqdic.items():
if i == key:
yfreq[i] = value
return yfreq
但我不想要一个单独包含所有单词的字典,我想要一些(元组?)代表具有两个频率的对(例如:(leyti:3000, leiti:500),(kyrkja: 400,kirkja:600))。我怎样才能做到这一点?
【问题讨论】:
标签: python nlp word-frequency