对文档中的单词进行分类答案

【问题标题】：Classifying words inside a document对文档中的单词进行分类
【发布时间】：2016-10-02 06:25:44
【问题描述】：

我面临的问题是：我想阅读一个文档，获取该文档的原始字符串，并对信息进行分类。例如，我想识别字符串何时是“姓名”或“日期”或其他一些有用的信息。

是否可以使用机器学习来做到这一点？我该如何解决这个问题？

这里最难的问题是我不是在尝试对文档本身进行分类，而是对文档内部的String信息进行分类。

【问题讨论】：

为什么不呢？只需将字符串视为短文本本身。查看这些帖子：stats.stackexchange.com/questions/118513/…、stats.stackexchange.com/questions/79765/…。
感谢瓦迪姆的反馈。我去看看

【解决方案1】：

所以这完全取决于你如何看待你的问题。我认为您的问题可以表述为实体提取/识别问题，您有一个文档并希望在文本中识别特定实体（其中实体可能是人、日期等）。看看条件随机字段及其在命名实体识别（简称 NER）中的应用，因为已经实现了一些库和工具。

例如，查看StanfordNER。

【讨论】：