【发布时间】:2016-02-17 17:20:11
【问题描述】:
我需要为我选择的大约 100 个单词定义同义词。为了测试,我手动添加条目:
t = {}
t.update({'Strong':['Strong', 'Able', 'Active', 'Big',
'Energy', 'Firm',
'Force', 'Heavy', 'Robust', 'Secure',
'Solid', 'Stable', 'Steady',
'Tough', 'Vigor', 'Might',
'Rugged', 'Sound']})
t.update({'Fast':['Fast', 'Agile', 'Brisk', 'Hot', 'Quick',
'Rapid', 'Swift', 'Accel', 'Active',
'Dash', 'Flash', 'Fly', 'Race', 'Snap',
'Wing', 'Streak', 'Time', 'Chop', 'Jiffy',
'Split', 'Bat', 'Crazy', 'Double', 'Scream',
'Sonic', 'Super', 'Ball', 'Speed']})
所以我正在创建一个空字典,然后将“Strong”和“Fast”之类的词映射到同义词(我需要能够选择)。
由于我只需要 100 个不同的单词映射,这是一种合理的方法吗?还是有更好的方法来实现这一点?
我也在考虑使用 NLTK 和 wordnet 模块。但是,这个模块需要一段时间才能运行,而且我似乎无法添加我需要的同义词。
【问题讨论】:
-
您是否从某个可以解析 ti 的地方(文件、Web 服务等)获取此数据表单?
-
同义词库对同义词使用某种加权值,但我想这不是必需的,所以
dict和key和同义词列表为values 应该是一个不错的选择这样做的方式。唯一的问题是您手动添加它,因此它不可扩展 -
我目前没有从任何地方获取数据,尽管可以通过这种方式进行设置。加权值是一个有趣的想法,但我目前不需要......可以扩展的东西是理想的,因为即使手动输入 100 也需要很长时间。
-
不确定您的数据是什么格式,但您可以将所有数据输入 Excel 工作表,将其保存为 csv,然后打开文件并逐行加载到您的 dict 数据中一个非常简单的python脚本结构。
-
我肯定会使用互联网来做这个,你可以很容易地使用 thesaurus.com、python 请求库和 BeautifulSoup
标签: python algorithm data-structures