信息检索入门
信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结
引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。
我所处的领域是关于网络数据的处理(国际会议WWW, SIGIR, CIKM, WSDM, ACL, EMNLP,等)
我列了一个我自己认为的在我们这个领域常常遇到的模型或者技术的列表,希望对大家节省时间有所帮助: 1. 概率论初步 主要常用到如下概念:初等概率定义的三个条件,全概率公式,贝叶斯公式,链式法则,常用概率分布(Dirichlet 分布,高斯分布,多项式分布,玻松分布m) 虽然概率论的内容很多,但是在实际中用到的其实主要就是上述的几个概念。基于测度论的高等概率论,几大会议(www,sigir等等)中出现的论文中基本都不会出现。 2. 信息论基础 主要常用的概念:熵,条件熵,KL散度,以及这三者之间的关系,最大熵原理,信息增益(information gain) 3. 分类 朴素贝叶斯,KNN,支持向量机,最大熵模型,决策树的基本原理,以及优缺点,知道常用的软件包 4. 聚类 非层次聚类的K-means算法,层次聚类的类型及其区别,以及算距离的方法(如single,complete的区别a),知道常用的软件包 5. EM算法 理解不完全数据的推断的困难,理解EM原理和推理过程 6. 蒙特卡洛算法(特别是Gibbs采样算法o)
model; d. 对于这些模型的理解,Gibbs 采样算法是绕不开的坎; 9. 最优化和随机过程 a. 理解约束条件是等号的最优化问题及其lagrange乘子法求解; b. 理解约束条件是不等号的凸优化问题,理解单纯形法; c. 理解梯度下降法,模拟退火算法; d. 理解爬山法等最优化求解的思想 e. 随机过程需要了解随机游走,排队论等基本随机过程(论文中偶尔会有,但不是太常见n),理解Markov 随机过程(非常重要,采样理论中常用l); 10. 贝叶斯学习 目前越来越多的方法或模型采用贝叶斯学派的思想来处理数据,因此了解相关的内容非常必要。 a. 理解贝叶斯学派和统计学派的在思想和原理上的差别和联系; b. 理解损失函数,及其在贝叶斯学习中的作用;记住常用的损失函数; c. 理解贝叶斯先验的概念和四种常用的选取贝叶斯先验的方法; d. 理解参数和超参数的概念,以及区别; e. 通过LDA的先验选取(或者其它模型i)来理解贝叶斯数据处理的思想; 11. 信息检索模型和工具 a. 理解常用的检索模型; b. 了解常用的开源工具(lemur,lucene等ng)
上述的模型和算法,也许学过之后但是记不住,个人意见:没有关系,再次看的时候就很快了。
Xianling Mao, Search Engine & Web Mining Group