一、介绍最近邻搜索算法

1、1NN伪代码

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

 

2、knn伪代码

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

 

3、文档表示:word counts

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

 

4、文档表示:tf*idf

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

 

5、距离矩阵

最简单的比如:

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

加权重的特征:有些特征比较重要,则权重较大。

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

 

6、相似度计算

(1)矩阵乘法

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

为了避免长短文章问题,进行归一化。

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

 

(2)cosine

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

 

二、kd-tree

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

矩阵剪枝,对中小型维度的数据库比较有效。高维数据难处理。

 

NN搜索在kd-tree中:

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

剪掉大部分分支,在剩下的中求k最近邻。

 

三、测试:cosine相似度公式见题4

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

 

【机器学习课程-华盛顿大学】:4 聚类和检索 4.2 nn、knn、kd-tree和检索

相关文章:

  • 2021-11-13
  • 2022-01-05
  • 2022-01-21
  • 2021-07-16
  • 2021-10-11
  • 2021-12-21
  • 2021-11-15
  • 2021-09-09
猜你喜欢
  • 2022-01-12
  • 2021-09-17
  • 2021-10-16
  • 2022-01-13
  • 2022-01-16
  • 2021-09-25
  • 2021-11-20
相关资源
相似解决方案