【发布时间】:2019-08-29 18:38:56
【问题描述】:
我是机器学习的新手。我正在尝试构建一个分类器,将文本分类为具有 url 或没有 url。数据未标记。我只有文本数据。我不知道该怎么做。感谢任何帮助或示例。
【问题讨论】:
-
您可以在数据中为标签添加新列,就像包含和不包含的 1 和 0 一样简单。如果您使用 pandas 数据框读取数据并需要列,则可能需要提供更多详细信息。
-
您需要标记数据来教授分类器。它还怎么知道你对有或没有 url 的文本感兴趣,而不是对谈论花的文本和谈论小马的文本感兴趣?但是,由于 URL 具有相当标准的格式,您可以使用小程序自动添加训练标签。
-
有网址但没有网址? URL 具有明确定义的格式,您可以使用正则表达式来识别文本是否具有与此格式匹配的内容。这么简单的任务不需要人工智能。
标签: python machine-learning classification