【发布时间】:2018-03-15 22:47:17
【问题描述】:
我有一堆句子,每个句子都与一个数值性能值相关联。
我想做两件事:
- 基于新句子预测性能
- 找出哪些词与高分的相关性最高
从句子中提取特征的最佳方法是什么?有人可以告诉我哪种模型最适合上述情况并且可以在 Sklearn 中使用吗?
谢谢! 查尔斯
ps:下一行文本输入将与其他数字特征相结合以预测性能。
编辑:文本示例:
巴里是一位很棒的主人!他的地方非常好,巴里是一个非常 善良和乐于助人的人。我会把他推荐给我所有的朋友 前往阿姆斯特丹进行短途或长途旅行!他的位置 公寓非常方便,乘坐电车即可轻松抵达。只是 乘坐短途电车或步行或骑自行车几分钟,然后我们 家。感谢巴里度过了如此美好的时光!祝你好运 再次感谢!
【问题讨论】:
-
目前尚不清楚您的数据是什么样子(提供示例表或 smth),但我假设您有特征/结果对,其中您的特征是一个句子,结果是一些连续变量。在这种情况下,您可以通过计算您认为具有预测性的特定单词的出现次数,将您的句子转换为一组二进制变量。然后,您可以将其用作输入,例如线性回归(虽然我不确定在这种情况下线性回归有多大意义,但我不是文本挖掘专家)。
-
我添加了一个示例
标签: python text scikit-learn nlp