如何对未标记的数据进行分类？

【问题标题】：How to classify unlabelled data?如何对未标记的数据进行分类？
【发布时间】：2019-08-29 18:38:56
【问题描述】：

我是机器学习的新手。我正在尝试构建一个分类器，将文本分类为具有 url 或没有 url。数据未标记。我只有文本数据。我不知道该怎么做。感谢任何帮助或示例。

【问题讨论】：

您可以在数据中为标签添加新列，就像包含和不包含的 1 和 0 一样简单。如果您使用 pandas 数据框读取数据并需要列，则可能需要提供更多详细信息。
您需要标记数据来教授分类器。它还怎么知道你对有或没有 url 的文本感兴趣，而不是对谈论花的文本和谈论小马的文本感兴趣？但是，由于 URL 具有相当标准的格式，您可以使用小程序自动添加训练标签。
有网址但没有网址？ URL 具有明确定义的格式，您可以使用正则表达式来识别文本是否具有与此格式匹配的内容。这么简单的任务不需要人工智能。

标签： python machine-learning classification

【解决方案1】：

您无法使用未标记的数据训练分类器。你需要有标签的例子。有一些服务会为您标记它，但您手动操作可能更简单（我假设您可以每分钟完成一个）。
堆栈溢出用于编程；这个问题更适合Cross-Validated。也许他们会有比我更好的建议。
标记数据后，网络上有很多关于此主题的信息 - 例如，如果您已经对这个问题有所了解，this blog 是一个很好的起点。

祝你好运！

【讨论】：

【解决方案2】：

由于是文本，你可以使用bag of words技术来创建向量。

您可以使用cosine similarity对常用类型文本进行聚类。
然后使用分类器，这将取决于集群的数量。
这样你就有了一个带标签的训练集。
- 如果您有两个集群，则可以使用逻辑回归等二元分类器。
- 如果您有多个类，则需要基于多项逻辑回归训练模型
- 或使用One vs Rest 技术训练多个逻辑模型。
最后，您可以使用 k 折交叉验证来测试您的模型。

【讨论】：

猜你喜欢

2019-06-01
2018-06-23
2017-09-28
2016-12-19
2014-05-17
1970-01-01
1970-01-01
2012-04-21
2016-11-30

相关资源

下载 2022-12-19
下载 2021-06-24
下载 2021-06-24
下载 2023-01-25

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode