【发布时间】:2019-07-22 12:05:47
【问题描述】:
我已将 pdf 文件导出为 .txt,我观察到许多单词由于换行符而被分成两部分。所以,在这个程序中,我想加入文本中分离的单词,同时保持句子中的正确单词。最后,我想得到一个所有单词拼写正确的最终 .txt 文件(或至少一个标记列表)。谁能帮我?
我现在的文字是这样的:
我需要你的帮助,因为我不是一个好的程序员。
我需要的结果:
我需要你的帮助,因为我不是一个优秀的程序员。
from collections import defaultdict
import re
import string
import enchant
document_text=open('test-list.txt','r')
text_string=document_text.read().lower()
lst=[]
errors=[]
dic=enchant.Dict('en_UK')
d=defaultdict(int)
match_pattern = re.findall(r'\b[a-zA-Z0-9_]{1,15}\b', text_string)
for w in match_pattern:
lst.append(w)
for i in lst:
if dic.check(i) is True:
continue
else:
a=list(map(''.join, zip(*([iter(lst)]*2))))
if dic.check(a) is True:
continue
else:
errors.append(a)
print (lst)
【问题讨论】:
-
那么错误是什么?
标签: python concatenation overwrite word