查找网页内容的语义

【问题标题】：Finding the semantics of webpage content查找网页内容的语义
【发布时间】：2016-04-26 14:20:33
【问题描述】：

我需要找到网页中文本的语义。即找出网页内容是一首诗还是一段对话或一篇文章等我可以感觉到这可以使用机器学习和自然语言处理来完成。如果有人可以提供有关可以遵循的技术的更多信息以及参考一些研究论文，那将会很有帮助。

【问题讨论】：

【解决方案1】：

我会看看行/句子的长度。对于此类分类任务，它们被证明是相当有用的功能。

如果您可以访问足够多的标记文本，则可以通过提取特征（单词数、每行和每句的平均单词数、总长度等）来训练分类器（例如决策树或随机森林）让分类算法完成剩下的工作。

【讨论】：