【问题标题】:Machine learning/information retrieval project机器学习/信息检索项目
【发布时间】:2010-09-29 10:24:37
【问题描述】:

我正在读硕士。在计算机科学和刚刚完成源的第一年。 (这是一个为期两年的课程)。很快我就必须提交一份硕士申请。项目。我选择了以下主题。

“机器学习对信息检索系统中文档排序的适用性”。研究人员一直在使用各种机器学习算法对文档进行排名。因此,作为项目的第一阶段,我将进行完整的文献调查,并找出当前方法的优缺点。在项目的第二阶段,我将提出一种新的(修改后的)算法,以克服当前方法的局限性。

其实我的问题是这种类型的项目是否适合作为硕士。项目?另外,如果有人在信息检索领域有一些有趣的想法,是否可以与我分享这些想法。

谢谢

【问题讨论】:

标签: machine-learning information-retrieval


【解决方案1】:

排名始终是任何信息检索系统中最难的部分。我认为这是一个非常好的主题,但您必须注意——尽快——定义工作范围。您可能无法开发新的 IR 引擎,而是基于例如 apache lucene 构建原型。

目前有很多数据集,包括stackoverflow数据转储,它为您提供定义丰富特征向量所需的所有信息(点数,时间,您可以挖掘上一个问题的主题等,标签的流行度)为您提供机器学习排名算法。在这部分工作中,您可以对特征类型进行分类(例如,用户特定、语义特征 - 标题中的软件名称)并执行一系列实验以了解哪些特征对给定数据集最重要,哪些不重要.

这样一个项目的第二个方向可以是如何有效地进行学习。背后的原因是网络或社区论坛中的数据量以及论坛中的变化(如果您采用社区特定功能,这将很重要),例如技术变化、新软件发布等。

还有许多其他主题与搜索和机器学习相关。最好的办法是在 scholar.google.com 上搜索有关排名、机器学习和搜索的最新调查论文,以了解什么是最先进的。下一步是与您的硕士导师交谈。

祝你好运!

【讨论】:

    【解决方案2】:

    你说的都很好,应该做,但是你忘记了最重要的部分:

    通过良好的实验和一些统计数据(p 值、置信区间)证明您的算法比其他算法更好和/或更快。

    如果你这样做并让人们相信你的算法是有用的,那么你肯定不会失败 :)

    【讨论】:

    • 硕士通常不需要这个。项目或论文。你可以得到你的硕士学位。即使您的修改或新想法并不比现有的更好。
    猜你喜欢
    • 2011-03-25
    • 2017-10-25
    • 2017-12-17
    • 1970-01-01
    • 2016-05-06
    • 2016-06-23
    • 2015-08-28
    • 2012-10-31
    • 2017-04-06
    相关资源
    最近更新 更多