结构化文本和非结构化文本答案

【问题标题】：Structured text and unstructured text结构化文本和非结构化文本
【发布时间】：2011-08-18 15:36:34
【问题描述】：

关于数据挖掘，结构化文本和非结构化文本有什么区别？在选择/开发用于分析这些不同文本的数据挖掘方法时，主要考虑哪些因素？

【问题讨论】：

此 Q 与最近的 Q 完全相同：stackoverflow.com/questions/5353124/…

标签： machine-learning artificial-intelligence data-mining

【解决方案1】：

首先我会说，在回答这些类型的问题时，您正在处理的特定领域非常重要。为您的问题添加一些上下文将允许更多有用的回答。

在一般情况下，结构化文本和非结构化文本之间的主要区别在于结构化文本具有易于消化的形式而非结构化文本没有这一简单事实。对于某些文本挖掘，这可能像词袋模型一样简单（每个单词出现多少次？），一直到试图提取更深层次的语言结构（如词性）的极其复杂的 NLP 方法或实体检测/解决。结构化数据的日常示例可能是 Twitter 上帖子的元数据（用户名/时间戳/转发信息/等），其中相关的非结构化数据将是帖子本身的文本。

在不确切知道您对什么感兴趣的情况下，一个重要的考虑因素是一个简单的事实，即结构化文本对于简单的机器学习模型来说通常是一种方便的形式，而非结构化文本很少是这样，因为它不能轻易地被视为一堆二进制/实值特征并放入您最喜欢的统计模型中。

希望这对高层次有所帮助——如果我的回答过于宽泛，请随时更新原始帖子的详细信息 =)

【讨论】：