简单的二进制文本分类答案

【问题标题】：Simple Binary Text Classification简单的二进制文本分类
【发布时间】：2017-04-08 05:57:35
【问题描述】：

我寻求最有效和最简单的方法，将 80 万多篇学术文章分类为与定义的概念空间相关的 (1) 或不相关的 (0)（此处：learning as it relates to work）。

数据为：标题和摘要（平均=1300 个字符）

任何方法都可以使用，甚至可以组合使用，包括监督机器学习和/或通过建立会产生某些阈值的特征来包含在内。

方法可以借鉴key terms that describe the conceptual space，尽管仅靠简单的频率计数太不可靠。潜在的途径可能涉及潜在语义分析、n-gram、..

为多达 1% 的语料库生成训练数据可能是现实的，尽管这已经意味着手动编码 8,000 篇文章（1=相关，0=不相关），这是否足够？

非常感谢具体的想法和一些简短的推理，因此我可以就如何进行做出明智的决定。非常感谢！

【问题讨论】：

【解决方案1】：

几个想法：

运行 LDA 并获取文档主题和主题词分布（20 个主题，具体取决于您对不同主题的数据集覆盖范围）。将具有最高相关主题的文档的前 r% 指定为相关，将低 nr% 指定为不相关。然后在这些标记的文档上训练一个分类器。
只需使用词袋并检索与您的查询（您的概念空间）最接近的前 r 个邻居，并将其视为不相关，并在它们上训练分类器。
如果您有引用，您可以通过标记很少的论文在网络图上运行标签传播。
不要忘记通过将标题词更改为 title_word1 来使标题词与您的抽象词不同，这样任何分类器都可以对其赋予更多权重。
将文章分为 100 个集群，然后选择然后手动标记这些集群。根据您的语料库中不同主题的覆盖范围选择 100。您也可以为此使用层次聚类。
如果相关文档的数量远远少于不相关文档的数量，那么最好的方法是找到与您的概念空间最近的邻居（例如，使用在 Lucene 中实现的信息检索）。然后，您可以手动降低排名结果，直到您认为文档不再相关为止。

这些方法中的大多数是用于文本分类的 Bootstrapping 或 Weakly Supervised 方法，您可以参考更多文献。

【讨论】：