【发布时间】:2014-05-10 13:03:56
【问题描述】:
我可以访问我感兴趣的文本语料库中的词向量。现在,我面临的问题是这些向量区分大小写,例如,“Him”与“him”不同,与“HIM”不同。
我想找到与“他”这个词最相似的词是不区分大小写的方式。我使用与 Google word2vec 软件包捆绑在一起的 distance.c 程序。这是我遇到问题的地方。
我是否应该将“他他他”作为参数传递给distance.c 可执行文件。这将返回关闭到 3 个单词的单词发送。
或者我应该分别运行distance.c 程序并使用 3 个参数(“Him”、“him”和“HIM”)中的每一个,然后以合理的方式将这些列表放在一起以得出最相似的词?请提出建议。
【问题讨论】:
标签: deep-learning nlp word2vec case-sensitive