【问题标题】:Define category of a word定义一个词的类别
【发布时间】:2016-09-15 12:30:50
【问题描述】:

我有一组 20'000 个单词和简单的短语。我需要挑选每个单词并定义它的一般概念或类别。

所以如果我选择“曲棍球”,它应该属于一个大的“体育”类别。如果是“巴拉克奥巴马”,那么它就是“政治”。这是我的单词列表中的一个示例:

israel
illness
face
experts
throat
tory
moments
numerous

所有奇怪的东西都可以归入“一般”类别。

这是我的问题。以下是我的想法,您可能会忽略,因为我不知道如何处理这个问题。

可能我正在寻找某种可以定义单词一般概念的打开字典或 API。我正在考虑使用一个简单的字典并通过它解析它的 Economics 类别来运行每个单词。但并非所有单词都有。

【问题讨论】:

  • 你试过斯坦福的 WordNet 吗?

标签: r nlp


【解决方案1】:

我可以将您指向http://dbpedia.org/。它是许多维基百科信息框数据的本体,它有一个用于查询的 sparql 端点。两年前我用过,但是api好像变了,所以现在不能给你举个例子。但它有一个很好的文档。

【讨论】:

    【解决方案2】:

    听起来您想要进行主题建模。 quantedaSnowballtm 包是很好的起点。使用mallet 包进行主题建模的资源在这里:

    http://www.matthewjockers.net/materials/dh-2014-introduction-to-text-analysis-and-topic-modeling-with-r/

    主题建模的总体思路是,您的文字来自本身与某个主题相关的文档。主题建模检查哪些词在同一个文档中一起出现,并假设在许多文档中,这些词可能是关于同一个主题的。希望这会有所帮助。

    【讨论】:

    • 当然是主题,不是类别。谢谢!看来你指的是我正在寻找的东西。我想我需要一些时间才能得到结果,所以我只是将答案标记为正确。
    • 我还发现了这个有趣的项目,它完全符合我的要求:meaningcloud.com。但它不会大规模使用,因为免费版本有限。
    • 你也可以使用这个在线工具,我不确定它是否更适合你:voyant-tools.org
    猜你喜欢
    • 2016-03-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-05-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多