文本挖掘技术——引言

文本挖掘是从大量文本数据中抽取隐含的，未知的，可能有用的信息。
难点
语言难点：文本不是给计算机阅读的、复杂的语言结构（语法、语义、语用）、歧义（更困难的)、多语言
KDD算法难点：海量（大规模的数据集）、高维时效性（随时间变化的数据和知识）、噪音数据、挖掘出的模式的可理解性