【发布时间】:2020-12-25 02:54:28
【问题描述】:
例如,如果我选择 5 和 50 两种窗口大小,并训练 word2vec 模型,那么 50 的会需要更多时间来训练吗? 50 的嵌入会更集中于文本的语义,而 5 的嵌入会更集中于单个单词吗? 顺便说一句,以上两个问题只是我对我正在寻找的东西的思考/示例。我真正的问题只是标题“窗口大小如何影响word2vec以及我们如何根据不同的任务选择窗口大小?”
【问题讨论】:
例如,如果我选择 5 和 50 两种窗口大小,并训练 word2vec 模型,那么 50 的会需要更多时间来训练吗? 50 的嵌入会更集中于文本的语义,而 5 的嵌入会更集中于单个单词吗? 顺便说一句,以上两个问题只是我对我正在寻找的东西的思考/示例。我真正的问题只是标题“窗口大小如何影响word2vec以及我们如何根据不同的任务选择窗口大小?”
【问题讨论】:
更大的window 需要更长的训练时间。
在“skip-gram”模式下,较大的窗口将对运行时产生更强的影响,其中较大的窗口意味着更多单独的中心词预测和错误反向传播。在“CBOW”模式下,它将对运行时产生更温和的影响,它只是意味着对输入向量进行更多平均,并对每个预测/反向传播的最终效果进行扇出。
关于它如何影响生成的词向量的特征,之前的回答中有一些讨论和相关研究论文:Word2Vec: Effect of window size used
通常,您可以像任何其他可调参数一样优化 window 值,方法是设计一些可重复的方法来对您的实际任务(或密切/相关的模拟)中的最终词向量进行评分,然后尝试值范围以查看您的评估中哪个得分最高。
【讨论】: