使用学习对文本文档进行排名？答案

【问题标题】：Using Learning To Rank on textual documents?使用学习对文本文档进行排名？
【发布时间】：2019-10-20 10:56:00
【问题描述】：

我需要一些帮助来实施学习排名 (LTR)。它与我的学期项目有关，我对此完全陌生。详细情况如下：我收集了大约 90 个文档并填充了 10 个用户查询。现在我必须使用 LambdaMart、AdaRank 和 Coordinate Ascent 三种算法，根据每个查询对这些文档进行排名。以前我在向量空间模型上应用了聚类技术，但这很容易。但是在这种情况下，我不知道如何根据这些算法更改数据。因为我在单独的文件中有 txt 格式的文本数据（文档和查询）。我在网上搜索了解决方案，但找不到合适的解决方案，所以这里的任何人都可以指导我正确的方向，即步骤。我真的很感激。

【问题讨论】：

标签： python-3.x ranking information-retrieval supervised-learning

【解决方案1】：

正如您所说，您已经在向量空间模型中应用了聚类。这些算法的输入也是向量。您为什么不看一下为学习排名问题（Letor benchmark）而引入的标准数据集，其中文档以特征向量显示？在java（RankLib）中也提供了这些算法的实现，这可能会给你解决问题的想法。希望对你有所帮助！

【讨论】：

感谢您的回复。我研究了你提到的那篇论文并研究了数据集。但是，没有关于他们如何构建实际数据集的信息。数据集仅包含数值和其中的查询引用。就我而言，我有文档和 VSM（逐个文档矩阵）。我仍在努力将其变成 Ohsumsd 数据集之类的东西。