【问题标题】:How to classify text when pre defined categories are not available当预定义的类别不可用时如何对文本进行分类
【发布时间】:2011-11-17 00:36:04
【问题描述】:

我有一个问题,不知道必须应用哪种算法。 我正在考虑在案例二中应用集群,但不知道案例一:

我有 50 万份信用卡活动文件。每个文档定义明确,每行包含 1 个事务。日期、金额、零售商名称和零售商的简短 5-20 字描述。 样本: 2004-11-47,$500,亚马逊,一家提供书籍、硬件、音乐等商品和服务的在线零售商。 问题: 1. 如果没有预先定义的类别,如何对每个条目进行分类。 2. 如果给你预先定义的类别,如“餐厅”、“娱乐”等,你会怎么做?

【问题讨论】:

  • 这个项目的目的是什么?

标签: nlp data-mining text-processing


【解决方案1】:

1) 如果没有预先定义的类别,如何对每个条目进行分类。

你不会的。相反,您可以对数据的二维特征使用一些降维算法,猜测“自然”聚类的数量,然后运行聚类算法。

2) 如果给您预先定义的类别,例如“餐厅”、“娱乐”等,您会怎么做?

您需要手动标记其中的一堆,然后在上面训练一个分类器,看看它与通常的准确度/F1、交叉验证等机制的工作情况如何。或者您可以检查一个聚类算法是否适用这些类别很好,但是您仍然需要一些标记数据。

【讨论】:

    猜你喜欢
    • 2020-05-12
    • 1970-01-01
    • 2017-05-09
    • 1970-01-01
    • 2013-08-27
    • 2018-09-20
    • 1970-01-01
    • 2015-01-07
    • 2019-06-06
    相关资源
    最近更新 更多