【发布时间】:2014-12-03 01:05:43
【问题描述】:
我有一个字符串列表,我想将其分类。然后我想在每个组的字符串上显示。
假设我的列表如下所示:
- 敏捷的棕狐跳过懒狗
- 敏捷的棕狐跳过懒狗!!!
- 棕狐跳过懒狗
- Zing,侏儒运动员烦恼淋巴
- 侏儒运动员烦恼淋巴123
- 我喜欢饼干
然后我想展示这样的东西(每个类一个字符串):
- 敏捷的棕狐跳过懒狗
- 侏儒运动员烦恼淋巴123
- 我喜欢饼干
我知道三元组是一种非常简单且有用的解决方案,可以将字符串分类为“相似的字符串”和“不同的字符串”。我也很确定它们可以用于将字符串列表划分为类,但我不确定如何。
这里有人可以帮助我吗,或者我应该使用完全不同的东西吗?
比起高精度,我更喜欢一种简单且可维护的方法。
【问题讨论】:
-
您的问题是clustering,而不是classification(已编辑标签和标题)
标签: machine-learning cluster-analysis trigram