【发布时间】:2017-04-08 05:57:35
【问题描述】:
我寻求最有效和最简单的方法,将 80 万多篇学术文章分类为与定义的概念空间相关的 (1) 或不相关的 (0)(此处:learning as it relates to work)。
数据为:标题和摘要(平均=1300 个字符)
任何方法都可以使用,甚至可以组合使用,包括监督机器学习和/或通过建立会产生某些阈值的特征来包含在内。
方法可以借鉴key terms that describe the conceptual space,尽管仅靠简单的频率计数太不可靠。潜在的途径可能涉及潜在语义分析、n-gram、..
为多达 1% 的语料库生成训练数据可能是现实的,尽管这已经意味着手动编码 8,000 篇文章(1=相关,0=不相关),这是否足够?
非常感谢具体的想法和一些简短的推理,因此我可以就如何进行做出明智的决定。非常感谢!
【问题讨论】:
-
你如何定义相关性?只考虑 1% 的语料库进行训练是不合理的。你的语料库有注释吗?我的意思是每个文档的相关/不相关标签。
标签: nlp text-classification n-gram document-classification latent-semantic-indexing