【问题标题】:Machine learning predict text fields based on text fields机器学习基于文本字段预测文本字段
【发布时间】:2015-08-17 17:32:17
【问题描述】:

我在机器学习和预测方面工作了大约一个月。我尝试过 IBM watson 与 bluemix、amazon 机器学习和 predictionIO。我想要做的是根据其他字段预测一个文本字段。我的 csv 文件有四个名为 Question,Summary,Description,Answertext fields 和大约 4500 行/Recrods。上传的数据集中没有数字字段。典型记录如下所示。

{'Question':'sys down','Summary':'does not boot after OS update','Description':'Desktop does not boot','Answer':'Switch to safemode and rollback last update'}

在 IBM watson 上,我发现了一个 question in their forums 和一个回复说自定义语料库上传现在是不可能的。然后我转向亚马逊机器学习。我遵循了他们的文档,并能够使用 api 在自定义应用程序中实现预测。我在movielens data 上测试过,一切都是数字。我通过他们的python-boto 库成功上传了数据并获得了电影推荐。当我尝试上传我的 csv 文件时,我遇到的问题是 no text field can be selected as target。然后我添加了对应于csv中每个值的数值。这个方法使预测成功,但准确性不对。可能是 csv 必须以更好的方式格式化。

下面粘贴了来自movielens 数据的记录。它表示用户 ID 196 在时间(unix 时间戳)881250949 时给电影 ID 242 提供了两星评级。

196 242 3   881250949

目前我正在尝试predictionIO。正如documentation 使用推荐模板所述,movielens 数据库测试成功运行,没有出现问题。但仍然不清楚根据其他文本字段预测文本字段的可能性。

预测是仅在数字字段上运行,还是可以根据其他文本字段来预测文本字段?

【问题讨论】:

    标签: machine-learning amazon prediction ibm-watson predictionio


    【解决方案1】:

    不,预测不仅仅在数值字段上运行。它可以是任何东西,包括文本。我的猜测是 MovieLens 数据使用 ID 而不是实际的用户和电影名称,因为

    1. 这样可以节省存储空间(这个数据集已经存在了很长时间,然后存储肯定是一个问题),并且

    2. 无需知道实际用户名(隐私问题)

    对于您的情况,您可能需要查看文本分类模板 https://docs.prediction.io/demo/textclassification/ 。您需要对希望如何分类每条记录进行建模。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-01-11
      • 1970-01-01
      • 2018-12-01
      • 1970-01-01
      • 2017-03-26
      • 1970-01-01
      • 2018-02-07
      • 1970-01-01
      相关资源
      最近更新 更多