【发布时间】:2018-07-06 21:19:34
【问题描述】:
当使用例如 gensim、word2vec 或类似的方法来训练您的嵌入向量时,我想知道什么是好的比率,或者嵌入之间是否存在首选比率词汇量的维度? 此外,随着更多数据的出现,这种情况会如何变化?
由于我仍在讨论这个主题,在训练嵌入向量时如何选择一个好的窗口大小?
我之所以这么问,是因为我不是用现实生活中的语言词典来训练我的网络,而是这些句子将描述进程与文件以及其他进程之间的关系等等。 例如,我的文本语料库中的句子如下所示:
smss.exe irp_mj_create systemdrive windows system32 ntdll dll DesiredAccess: Execute/Traverse, Synchronize, Disposition: Open, Options: , 属性:n/a,ShareMode:读取,AllocationSize:n/a,OpenResult: 已打开”
正如您可能想象的那样,变化很多,但问题仍然存在,我如何才能以最佳方式微调这些超参数,以便嵌入空间不会过度拟合,而且每个单词都有足够的有意义的特征。
谢谢,
加布里埃尔
【问题讨论】:
-
Google News 数据集上预训练嵌入的维度只有 300,即使它的词汇量非常大。
标签: machine-learning keras nltk word-embedding nltk-trainer