英语教材提取单词制作生词表
教材分解成单词
vim下:
- 以非英语字符为界,切割所有文本
:%s/\W/\r/g
- 删除重复单词,并排序
:sort u
- 删除含有数字的“单词”部分
:g/\d/d
查英语字典生成单词表
- Python
import pandas as pd
#读入单词和字典
words = pd.read_csv(\'words.txt\',encoding=\'UTF-8\',names=[\'word\'])
dicts = pd.read_csv(\'dicts.txt\',encoding=\'ANSI\',names=[\'word\',\'paraphrase\'],sep=\'\t\')
#单词和字典以单词为Key 求inner集
wordlist = pd.merge(dicts,words,on=\'word\',how=\'inner\')
wordlist.set_index(\'word\',inplace=True)
#保存为生词表
wordlist.to_csv(\'wordlist.txt\',sep=\' \')