FireTim

计算两个Web网页的内容相似度

具体要求

1、输入两个url,抓取两个网页的HTML源码;
2、从抓取到的HTML源码中解析出文章内容;
3、以字为单位,计算每篇文章对应的TF向量;
4、用TF向量计算两篇文章的余弦相似度。

具体流程

1、获取源码,并解析文章内容

2、分词,去除停用词

3、计算TF向量

4、用TF向量计算余弦相似度

分类:

技术点:

相关文章:

  • 2021-10-13
  • 2021-12-07
  • 2022-12-23
  • 2022-02-01
  • 2021-12-15
  • 2021-12-12
  • 2022-12-23
猜你喜欢
  • 2021-12-12
  • 2022-12-23
  • 2022-12-23
  • 2021-12-21
  • 2021-12-06
相关资源
相似解决方案