交叉确认集是从训练集中抽取一部分用来调整模型参数
模型构建的时候一定要选用跟模型相匹配的数据
其中,未登录词是指当下出现的新词,未纳入词典中的词
例如:X为电影 ,Y为院,通过公式计算X与Y的凝聚程度,较大则为一个词,反之不是
一般采用默认模式(精确模式),不采用全模式,
精确模式:会将这句话中的词进行切割,
全模式:只要是单词就会显示
IDF的作用就是为了凸显出在文章当中出现的在其他文章当中出现频率较小的词的重要性
运行结果:
相关文章:
交叉确认集是从训练集中抽取一部分用来调整模型参数
模型构建的时候一定要选用跟模型相匹配的数据
其中,未登录词是指当下出现的新词,未纳入词典中的词
例如:X为电影 ,Y为院,通过公式计算X与Y的凝聚程度,较大则为一个词,反之不是
一般采用默认模式(精确模式),不采用全模式,
精确模式:会将这句话中的词进行切割,
全模式:只要是单词就会显示
IDF的作用就是为了凸显出在文章当中出现的在其他文章当中出现频率较小的词的重要性
运行结果:
相关文章: