【发布时间】:2013-11-21 17:55:41
【问题描述】:
我正在尝试从包含时间、地点和名称的网页中解析实体。我读了一些关于自然语言处理和实体提取的文章,但我不确定我是否走错了路,所以我在这里问。
我还没有开始实现任何东西,所以如果某些开源库只适用于特定语言,那没关系。
很多时候数据不会在句子中找到,而是在 html 结构中,如列表(例如
- 2013-02-01 - 活动名称 - 竞技场名称
网页的结构会大不相同(有些可能使用列表,有些可能会将它们放在表格中,等等)。
我可以研究哪些主题来详细了解如何实现这一目标? 是否有任何开源库在进行实体提取时考虑到 html 的结构? 使用机器视觉从 html 中提取这些(名称、时间、地点)实体会更好(甚至可能),其中 CSS 样式可能更容易区分非结构化文本的重要部分(名称、时间、位置)?
任何关于我可以研究的主题/开源项目的指导都会对我有所帮助。
【问题讨论】:
标签: machine-learning nlp named-entity-extraction