【问题标题】:How to classify unlabelled data?如何对未标记的数据进行分类?
【发布时间】:2019-08-29 18:38:56
【问题描述】:

我是机器学习的新手。我正在尝试构建一个分类器,将文本分类为具有 url 或没有 url。数据未标记。我只有文本数据。我不知道该怎么做。感谢任何帮助或示例。

【问题讨论】:

  • 您可以在数据中为标签添加新列,就像包含和不包含的 1 和 0 一样简单。如果您使用 pandas 数据框读取数据并需要列,则可能需要提供更多详细信息。
  • 您需要标记数据来教授分类器。它还怎么知道你对有或没有 url 的文本感兴趣,而不是对谈论花的文本和谈论小马的文本感兴趣?但是,由于 URL 具有相当标准的格式,您可以使用小程序自动添加训练标签。
  • 有网址但没有网址? URL 具有明确定义的格式,您可以使用正则表达式来识别文本是否具有与此格式匹配的内容。这么简单的任务不需要人工智能。

标签: python machine-learning classification


【解决方案1】:
  1. 您无法使用未标记的数据训练分类器。你需要有标签的例子。有一些服务会为您标记它,但您手动操作可能更简单(我假设您可以每分钟完成一个)。
  2. 堆栈溢出用于编程;这个问题更适合Cross-Validated。也许他们会有比我更好的建议。
  3. 标记数据后,网络上有很多关于此主题的信息 - 例如,如果您已经对这个问题有所了解,this blog 是一个很好的起点。

祝你好运!

【讨论】:

    【解决方案2】:

    由于是文本,你可以使用bag of words技术来创建向量。

    • 您可以使用cosine similarity对常用类型文本进行聚类。

    • 然后使用分类器,这将取决于集群的数量。

    • 这样你就有了一个带标签的训练集。

      • 如果您有两个集群,则可以使用逻辑回归等二元分类器。
      • 如果您有多个类,则需要基于多项逻辑回归训练模型
      • 或使用One vs Rest 技术训练多个逻辑模型。
    • 最后,您可以使用 k 折交叉验证来测试您的模型。

    【讨论】:

      猜你喜欢
      • 2019-06-01
      • 2018-06-23
      • 2017-09-28
      • 2016-12-19
      • 2014-05-17
      • 1970-01-01
      • 1970-01-01
      • 2012-04-21
      • 2016-11-30
      相关资源
      最近更新 更多