【问题标题】:Word classification algorithm pro cons词分类算法优缺点
【发布时间】:2016-04-18 07:04:26
【问题描述】:

对于大学项目,我需要构建一个软件,给定一些关于虚拟建筑工地的 cmets,检测其实际状态(just startedin constructionterminated)。

例如,给定 cmets:

  • “很高兴听到我们可以穿过英吉利海峡大桥”
  • “昨天和朋友去新建的桥上去法国旅游”
  • “他们刚刚完成了站点,并且在第 5 英里处已经出现了裂缝。真是令人失望!”

系统应该检测到“英吉利海峡大桥”施工现场已经结束。

目前我正在尝试选择用于该项目的词分类算法。我在网上搜索了要使用的最佳分类算法。我读过关于 SVC 的文章,但由于我不是该领域的专家,因此我不确定 SVC 在我的场景中的合规性/优点。

我想要获得的不是解决问题的方法,而是列出可用算法及其优缺点。

【问题讨论】:

    标签: algorithm nlp text-mining


    【解决方案1】:

    您的问题表述不正确,使人们难以为您列出优缺点。

    您描述的问题并不是真正的单词分类问题,因为您没有对单词进行分类。您正在尝试做的是:

    1. 建设项目命名实体认定
    2. 根据提及上下文将每个构造命名实体分为 3 种不同类型。

    算法不是真正的问题。大多数分类算法(线性回归、决策树、SVM 等)都可以使用。

    您实际遇到的问题(但根据您的问题没有意识到)是您没有训练数据 用于查找建筑项目命名实体或将这些实体分类到您的3 个类别。

    我的建议是您使用其中一个免费提供的 NER 工具包/库,添加与建筑项目相关的字典功能(例如桥、塔等词),然后看看您在你任务的第一部分。

    更重要的考虑因素是:

    1. 您需要多少时间/金钱来获取带注释的数据?
    2. 您需要什么样的性能?
    3. 您愿意考虑哪种语言/库(恕我直言,这是最不重要的问题)

    对不起,我知道这可能不是您想听到的答案,但我怀疑这是您需要的答案。 ;)

    【讨论】:

    • 您好,感谢您的回答。我不必再在这个问题上工作了,但是我有兴趣了解单词分类算法的优缺点,而不是如何真正实现解决方案。您的考虑是正确且有帮助的,但并不像您所说的那样真正回答我的问题。即使我不必解决这个问题,了解更多内容也很有趣。 [对不起我的英语不好]
    猜你喜欢
    • 1970-01-01
    • 2011-03-24
    • 2011-05-19
    • 2021-10-17
    • 2014-11-07
    • 2011-08-24
    • 2013-10-30
    • 1970-01-01
    • 2011-10-23
    相关资源
    最近更新 更多