【发布时间】:2017-11-01 16:09:38
【问题描述】:
在将单词作为向量的传统“one-hot”表示中,向量的维度与词汇的基数相同。为了降低维度,通常会删除停用词,并应用词干提取、词形还原等方法来规范您想要执行某些 NLP 任务的特征。
我无法理解是否/如何预处理要嵌入的文本(例如 word2vec)。我的目标是使用这些词嵌入作为 NN 的特征,将文本分类为主题 A,而不是主题 A,然后在主题 A 的文档上对它们执行事件提取(使用第二个 NN)。
我的第一直觉是预处理去除停用词、词形还原等。但是当我对 NN 有了更多了解后,我意识到应用于自然语言时,CBOW 和 skip-gram 模型实际上需要整个词集存在——为了能够从上下文中预测一个词,你需要知道实际的上下文,而不是规范化后上下文的简化形式......对吗?)。 POS 标签的实际序列似乎是人类感觉单词预测的关键。
我找到了some guidance online,但我仍然很想知道这里的社区是怎么想的:
- 在标点、词干、词形还原、停用词、数字、小写等方面是否有最近普遍接受的最佳做法?
- 如果是这样,它们是什么?一般来说,处理越少越好,还是在较重的一侧处理更多以规范化文本?是否有取舍?
我的想法:
最好删除标点符号(例如在西班牙语中不要删除重音符号,因为它传达上下文信息),将书面数字更改为数字,不要小写所有内容(用于实体提取),不要词干,不要词形还原.
这听起来对吗?
【问题讨论】:
标签: neural-network nlp