【发布时间】:2021-10-10 11:17:09
【问题描述】:
我目前正在尝试使用自己的训练数据来训练自己的 word2vec 模型,但我对训练数据的预处理完全感到困惑。
我在我的文本上运行了一个简短的脚本,它对文本中的单词进行词形还原和小写,这样最后我的训练数据来自一个句子(德语),例如:
"Er hat heute zwei Birnen gegessen."
如下:
[er, haben, heute, zwei, birne, essen]
翻译成英文:
He ate two pears today.
结果:
[he, eat, two, pear, today]
现在的问题是:我还没有看到有人对他们的训练数据这样做。这些词都是大写的,也没有词形化,我完全不明白这是如何工作的。特别是对于德语,动词的变化非常多。我应该就这样离开他们吗?我不明白不进行词形还原是如何工作的,因为 gensim 甚至不知道它是用哪种语言训练的吗?
简而言之:我应该进行词形还原和/或小写,还是让每个单词保持原样?
非常感谢!
【问题讨论】:
标签: python nlp gensim word2vec