基于Python检索系统（1）总体介绍

为了实现将上海理工大学的新闻可以进行关键词、关键字的检索，设计了基于Python的检索系统。

系统主要分为四部分，爬虫、中文分词、建立倒排索引、检索接口。

1、爬虫

将上海理工大学的新闻中心（http://www.usst.edu.cn/s/1/t/517/p/2/i/411/list.htm）的标题或全文爬取下来，存入TXT文件。简单的应用正则表达式（re模块）和字符串的处理即可实现。

2、中文分词

应用Jieba分词工具，将爬取得到的新闻进行中文分词，也就是为了得到以后检索要用到的关键词。我们给每个关键词建立一个单独的索引，引入间接桶，应用倒排索引的方法实现最终的结果。

3、建立倒排索引

建立倒排索引的过程其实主要是做好数据结构的过程。如何存放每个关键词，间接桶使用哪种数据类型，最终的索引如何实现，都是建立好这个索引结构的关键。

4、检索接口

即用户界面设计，简单使用Tkinter库，设计一个检索接口，完成关键词，关键字的检索。

基于Python检索系统（1）总体介绍