【发布时间】:2020-06-07 02:55:11
【问题描述】:
我有一个 twitter 用户列表 (screen_names),我需要根据他们的兴趣将他们分为 7 个预定义的类别 - 教育、艺术、体育、商业、政治、汽车、技术。 我在 Python 中提取了用户的最后 100 条推文,并在清理推文后为每个用户创建了一个语料库。
正如这里提到的Tweet classification into multiple categories on (Unsupervised data/tweets):
我正在尝试在每个类别下生成常用词的词典,以便我可以将其用于分类。
有没有一种方法可以自动为一组自定义单词生成这些词典?
然后我可以使用这些来使用 tf-idf 分类器对推特数据进行分类,并获得推文与每个类别的对应程度。最高值将为我们提供最可能的推文类别。
但是由于分类是基于这些预先生成的字典,我正在寻找一种方法来为自定义的类别列表自动生成它们。
示例字典:
Education - ['book','teacher','student'....]
Automobiles - ['car','auto','expo',....]
示例 I/O:
**Input :**
UserA - "students visited share learning experience eye opening
article important preserve linaugural workshop students teachers
others know coding like know alphabets vision driving codeindia office
initiative get students tagging wrong people apologies apologies real
people work..."
.
.
UserN - <another corpus of cleaned tweets>
**Expected output** :
UserA - Education (61%)
UserN - Automobiles (43%)
【问题讨论】:
-
如果您可以提供您正在使用的输入和您期望的输出作为文本,则获得建议/解决方案的可能性更高。
-
@moys 我添加了一些例子来澄清。
-
您是否问如何构建特定主题(例如教育)的词典?诸如与主题相关的词条之类的东西?或者你问如何从你的语料库中的推文中提取那些与主题相关的词?
-
我在问如何构建这些主题相关词条的词典。
-
您可以使用您知道与特定主题相关的文本中最常见的词形还原标记。您尝试对文本进行分类的方式听起来像 tf-idf 无论如何都是正确的分类方式,这样您就可以在搜索引擎中为每条推文与每个类别的词袋进行比较。或者使用词向量的余弦相似度。另一种方法是对数据子集进行注释,这意味着您对一些文本进行分类,然后将它们与语料库的其余部分进行比较以进行分类。
标签: python machine-learning nlp nltk text-classification