【问题标题】:Classifying words inside a document对文档中的单词进行分类
【发布时间】:2016-10-02 06:25:44
【问题描述】:

我面临的问题是: 我想阅读一个文档,获取该文档的原始字符串,并对信息进行分类。 例如,我想识别字符串何时是“姓名”或“日期”或其他一些有用的信息。

是否可以使用机器学习来做到这一点? 我该如何解决这个问题?

这里最难的问题是我不是在尝试对文档本身进行分类,而是对文档内部的String信息进行分类。

【问题讨论】:

标签: machine-learning text-classification


【解决方案1】:

所以这完全取决于你如何看待你的问题。我认为您的问题可以表述为实体提取/识别问题,您有一个文档并希望在文本中识别特定实体(其中实体可能是人、日期等)。看看条件随机字段及其在命名实体识别(简称 NER)中的应用,因为已经实现了一些库和工具。

例如,查看StanfordNER

【讨论】:

  • 感谢您的提示。我认为这正是我正在寻找的。我的问题似乎反复出现,但我不知道这个首字母缩写词 NER。谢谢。
猜你喜欢
  • 2010-10-31
  • 2018-05-19
  • 2014-06-13
  • 1970-01-01
  • 1970-01-01
  • 2017-04-11
  • 2011-07-29
  • 2011-08-11
  • 2014-02-19
相关资源
最近更新 更多