文献阅读--A systematic approach to identify novel cancer drug targets using machine learning, inhibitor

最近找了一些，预测肿瘤药物靶点的文献看看，这篇我挺感兴趣。

我主要阅读了靶点预测部分，一些专业的东西还不理解，暂粗浅的记录下

用机器学习算法，找新的癌症药物靶点

中心思想：用已知的训练集学习得出一个分类器（模型），再对未知的数据集进行分类

特征
收集癌症药物靶点的基因级信息，包括：

文献阅读--A systematic approach to identify novel cancer drug targets using machine learning, inhibitor
作为机器学习的特征空间

原始数据集
1. 已知药物靶点数据集2.未知药物靶点数据集

已知药物靶点数据集：collecting anti-BrCa, -PaCa and -OvCa drugs, their targets were identified from DrugBank [31] and the Therapeutic Target Database. In total, 62 known BrCa drug targets, 69 known PaCa targets and known 45 OvCa targets constituted the positive dataset。

未知药物靶点数据集：相关蛋白，在DrugBank和Therapeutic Target Database 没有记录;没有注释为癌症相关蛋白;不与肿瘤药物靶点相互影响；没有分享Pfam功能域；与已知靶点序列相似。

用文本挖掘的方法，挖掘在肿瘤研究文献中的所研究的15663个基因，统计出5169个基因可作为未知药物靶点数据集。

机器学习和特征选择

算法：支持向量机（SVM）
目的：将要预测的数据集，分为有癌症药物靶点或无癌症药物靶点两类。

特征选择：用SVM-REF方法，对13个特征评分，根据评分，最终得到5个相关的特征，包括：Average gene essentiality，Average mRNA expression，Average DNA copy number，Mutation occurrence，Clustering coefficient。

在用最优的特征集，训练集来得出最优的预测模型。
BrCa prediction model
PaCa prediction model
OvCa prediction model

靶点预测

用生成的预测模型，对15663个人基因分类.

预测结果：1655个基因作为假定靶点,对不同的癌型有不同的预测分值，可根据分值选取后续验证的靶点。
文献阅读--A systematic approach to identify novel cancer drug targets using machine learning, inhibitor