【发布时间】:2012-07-07 09:17:48
【问题描述】:
我目前正在研究一种基于神经网络的短文档分类方法,由于我使用的语料库通常在十个单词左右,因此标准的统计文档分类方法用途有限。由于这个事实,我试图为训练中提供的匹配实现某种形式的自动同义词检测。我的问题更具体地说是关于解决如下情况:
假设我有“涉及食物”的分类,以及“涉及领域”之一和一个数据集如下:
"Eating Apples"(Food);"Eating Marbles"(Spheres); "Eating Oranges"(Food, Spheres);
"Throwing Baseballs(Spheres)";"Throwing Apples(Food)";"Throwing Balls(Spheres)";
"Spinning Apples"(Food);"Spinning Baseballs";
我正在寻找一种渐进式的方法来实现以下链接:
Eating --> Food
Apples --> Food
Marbles --> Spheres
Oranges --> Food, Spheres
Throwing --> Spheres
Baseballs --> Spheres
Balls --> Spheres
Spinning --> Neutral
Involving --> Neutral
我确实意识到,在这种特定情况下,这些匹配可能有点可疑,但它说明了我遇到的问题。我的一般想法是,如果我增加一个与某个类别中的单词相对出现的单词,但在这种情况下,我最终会偶然地将所有内容与“涉及”这个词联系起来,然后我认为我会简单地减少一个出现在某个类别中的单词。与多个同义词或非同义词结合,但我会失去“吃”和“食物”之间的联系。有没有人知道我将如何组合一个算法,让我朝着上面指示的方向移动?
【问题讨论】:
-
你有一堆小句子,每个句子都有两个标签中的一个,你正在寻找一种方法来将词汇表中的每个标记与它似乎更相关或中性的标签相关联。某些关键术语出现在来自两个标签的句子中,您正在尝试寻找一种聪明的方法来给它们正确的标签?那是你的问题吗?同义词的概念在哪里进入了整个范式?
-
这只是一个例子。在实际执行中,我的句子要长得多,大约有 3000 个标签,而不是两个。这里的同义词问题可能是对同义词的松散定义,但基本上可以说大理石是球体的同义词。我正在寻找关于统计递增单词的想法,使其成为模仿上述模式的同义词。
-
必须是神经网络吗?在您对史蒂夫的回答中,您似乎也对替代方法(例如 LDA)持开放态度(尽管您最终驳回了 LDA)。
-
它不一定是神经网络,只要它是适合这项工作的工具。神经网络似乎是最明智的,但如果有更好的方法,我很想听听。
标签: language-agnostic machine-learning nlp artificial-intelligence neural-network