哪种方法最适合从文本数据回归？答案

【问题标题】：What methodology is best suited for Regression from text data?哪种方法最适合从文本数据回归？
【发布时间】：2018-03-15 22:47:17
【问题描述】：

我有一堆句子，每个句子都与一个数值性能值相关联。

我想做两件事：

从句子中提取特征的最佳方法是什么？有人可以告诉我哪种模型最适合上述情况并且可以在 Sklearn 中使用吗？

谢谢！查尔斯

ps：下一行文本输入将与其他数字特征相结合以预测性能。

编辑：文本示例：

巴里是一位很棒的主人！他的地方非常好，巴里是一个非常善良和乐于助人的人。我会把他推荐给我所有的朋友前往阿姆斯特丹进行短途或长途旅行！他的位置公寓非常方便，乘坐电车即可轻松抵达。只是乘坐短途电车或步行或骑自行车几分钟，然后我们家。感谢巴里度过了如此美好的时光！祝你好运再次感谢！

【问题讨论】：

目前尚不清楚您的数据是什么样子（提供示例表或 smth），但我假设您有特征/结果对，其中您的特征是一个句子，结果是一些连续变量。在这种情况下，您可以通过计算您认为具有预测性的特定单词的出现次数，将您的句子转换为一组二进制变量。然后，您可以将其用作输入，例如线性回归（虽然我不确定在这种情况下线性回归有多大意义，但我不是文本挖掘专家）。
我添加了一个示例

【解决方案1】：

文本所有数据分析的基本前提是将句子转换为固定维度空间中的向量，并使用您喜欢的方法在那里进行回归。这可以通过以下几种方式完成：

Bag of words

这是执行此任务的“传统”方式。如果您还可以阻止单词，这可能会更好，这可以使用NLTK 来完成。

最近，神经网络很好地解决了许多任务。文本分析就是其中之一。你可以看看https://github.com/ryankiros/skip-thoughts，或者找一个RNN把你的句子转换成向量。然而，解释这些模型非常困难，因此很难找到与高分相关的单词。

【讨论】：