为了实现将上海理工大学的新闻可以进行关键词、关键字的检索,设计了基于Python的检索系统。

系统主要分为四部分,爬虫、中文分词、建立倒排索引、检索接口。

1、爬虫

将上海理工大学的新闻中心(http://www.usst.edu.cn/s/1/t/517/p/2/i/411/list.htm)的标题或全文爬取下来,存入TXT文件。简单的应用正则表达式(re模块)和字符串的处理即可实现。

2、中文分词

应用Jieba分词工具,将爬取得到的新闻进行中文分词,也就是为了得到以后检索要用到的关键词。我们给每个关键词建立一个单独的索引,引入间接桶,应用倒排索引的方法实现最终的结果。

3、建立倒排索引

建立倒排索引的过程其实主要是做好数据结构的过程。如何存放每个关键词,间接桶使用哪种数据类型,最终的索引如何实现,都是建立好这个索引结构的关键。

4、检索接口

即用户界面设计,简单使用Tkinter库,设计一个检索接口,完成关键词,关键字的检索。

基于Python检索系统(1)总体介绍

相关文章:

  • 2021-12-10
  • 2021-07-03
  • 2022-12-23
  • 2021-06-23
  • 2022-12-23
  • 2021-04-26
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-01-13
  • 2021-09-29
  • 2021-09-15
  • 2021-10-22
  • 2021-12-03
  • 2021-10-16
  • 2021-12-10
相关资源
相似解决方案