【发布时间】:2020-07-22 13:33:59
【问题描述】:
我有一列包含 5000 条字符串记录。这些记录是单个单词或短语(不是句子或段落)。这些记录中的大多数是相似的或包含相似的元素(例如“办公室”、“办公室”、“底层办公室”)。此外,有人手动将其中的 300 条记录分为五类(即住宅、工业、办公室、零售、其他),这意味着我可以使用它来开发监督机器学习模型。我对 word2vec 进行了一些研究,但似乎它们适用于文本,而不是单个单词和短语。请告诉我如何进行分类。请注意,该列中的记录数量正在增长,并且将来会添加新记录,因此该解决方案必须能够对新记录进行分类。
示例输入和所需输出如下:
'industrial' -> 'Industrial'
'Warehouse' -> 'Industrial'
'Workshop' -> 'Industrial'
'rear warehouse' -> 'Industrial'
'office suite' -> 'office'
'office/warehouse' -> 'office'
'office(b1)' -> 'office'
'house' -> 'Residential'
'suite' -> 'Residential'
'restaurant' -> 'Retail'
'retail unit with 3 bedroom dwelling above' -> 'Retail'
'shoe shop' -> 'Retail'
'unit 56' -> 'Other'
'24 Hastings street' -> 'Other'
【问题讨论】:
-
你终于设法训练出一个词分类模型了吗?我正在解决类似的问题,可以使用您的建议。谢谢。
标签: python machine-learning nlp word2vec