【发布时间】:2016-11-25 10:29:58
【问题描述】:
- 您需要编写一个程序反转来进行索引构建。程序的输入是文档集合。输出包括两个文件 - 一个字典文件和一个发布列表文件。字典中的每个条目都应包含一个术语、其文档频率和指向其发布列表的链接。您应该使用适当的数据结构来构建字典(例如散列或搜索树或其他)。该结构应该易于随机查找和插入新术语。所有术语应按字母顺序排序。每个term的postings列表应该包括该term出现的所有文档的posting(按照文档ID的顺序),并且posting中保存的信息包括文档ID、文档中的词频以及该词在文档中所有出现的位置文件。
我已经创建了这两个文件并读取了每个术语并将它们保存在这个哈希图中
private static HashMap<dictionary, List<postings>> index = new HashMap<dictionary , List<postings>>();
我如何创建此链接,因为对于第二个程序,我使用从 invert.java 创建的两个 txt 文件运行它 我的 dictionary.txt 仅包含术语和频率,我如何创建此链接?
【问题讨论】:
-
这太长了。我会更多地隔离问题,以便人们更好地消化您的问题。
-
根据要求我已经隔离了问题
标签: java information-retrieval