安卓恶意软件检测

找数据集发现了安卓恶意软件检测这个方向
就找到了看了下也不是很新但是近几年发文章的人挺多就这个了反正也找不到我写啥

安卓恶意软件检测
这是几个安卓恶意软件数据集

入手

先看几篇中文论文别人怎么做的
安卓恶意软件检测
前两章讲恶意软件问题啥的先不管；

第三章写恶意软件数据集一类是恶意样本共享网站二类是具有家族信息的常用数据集这些数据集干嘛的有点不懂分类太多了跟我论文相关的数据集应该是包含特征值和标签的数据集这样适合随机森林机器学习。

第四章基于特征码的恶意软件检测基于特征码的恶意软件检测方法基本原理是利用每个软件特有的特征信息进行匹配, 即在已知恶意软件指定特征码的情况下, 通过与目标待检测软件的特征码进行匹配, 如果在已有的恶意软件特征码数据库中找到相同的特征码则将目标软件判定为恶意软件, 否则为良性软件.

第五章基于机器学习的恶意软件检测基于机器学习的恶意软件检测方法的基本原理是通过程序分析等技术提取不同的特征描述待分析样本的不同行为, 然后每一个样本均用一个固定维度向量表示, 最后借助于现有的机器学习算法对已知标签的样本进行训练并构建分类器, 从而能够对未知样本进行预测判断
特征选择的方法 1是使用app使用的权限 2是它使用的api接口作为接口；除了经典的权限以及 API 特征之外, 许多研究工作 [15,71∼75] 发现 Android 的相关 Intent、字符串以及组件也可以作为恶意软件的有效特征都可以作为特征
另一个方向数据指的是与 app 应用程序本身代码无关的额外描述信息, 例如该 app 的下载量、功能描述、类别信息等. 该类信息可以从另外一个新的角度对现有的特征进行完善, 从而提升检测效果.
第六章基于行为的检测方法下一篇

安卓恶意软件检测
怎么感觉这个文章很水。。。
好像是用权限作为特征训练样本 500左右太少了

Android malware detection based on image-based features and machine learning techniques 基于图像特征和机器学习技术的安卓恶意软件检测

本文提出了一种基于恶意代码分类的安卓系统恶意代码检测模型。该模型基于将 Android 应用程序源文件转换为灰度图像。从已构建的灰度图像数据集中提取了一些基于图像的局部特征和全局特征，包括4种不同类型的局部特征和3种不同类型的全局特征，并用于训练模型。据我们所知，这种类型的特性首次用于 Android 恶意软件检测领域。此外，利用视觉词语袋算法从每幅图像的局部特征描述子中构造出一个特征向量。这个 extracted local and global features have been used for training multiple machine learning classifiers including Random forest, k-nearest neighbors, Decision Tree, Bagging, AdaBoost and Gradient Boost. The proposed method obtained a very high classification accuracy reached 98.75% with a typical computational time does not exceed 0.018 s for each sample. The results of the proposed model outperformed the results of all compared state-of-art models in term of both classification accuracy and computational time. 提取的局部和全局特征用于训练多机器学习分类器，包括随机森林、 k- 最近邻、决策树、 Bagging、 AdaBoost 和梯度 Boost。该方法分类准确率达到98.75% ，每个样本的计算时间不超过0.018秒。该模型的分类精度和计算时间均优于现有模型的分类精度和计算时间
用图像直接学习可惜我没学图像处理要不然就用了
安卓恶意软件检测
选取 Android 应用的权限、四大组件、API 调用以及程序的关键信息如动态代码、反射代码、本机代码、密码代码和应用程序数据库等属性特征，对特征属性进行优化选择，并生成对应的特征向量集合
重点特征选择

这个论文自己做数据集和反编译找特征，这我都不会安卓咋搞数据集。。。只能找搞好的数据集了

10倍交叉验证技术（K-fold Cross Validation）[14]来评估分类器的性能。即将训练集划分为10 个相等并且没有交集的子集，在每次训练中将 1 个子集作为测试集，剩余的 9 个子集用作训练集，最后以 10 次训练结果平均值作为检测分类器最后的分类性能.

安卓恶意软件检测
提取了 Android应用程序的 API调用信息、申请权限信息、Source-Sink信息为特征，这些信息数量庞大，特征维数高达三四万维。为消除冗余特征和减少分类器构建时间，提出了使用 L1与离散二进制粒子群算法（BPSO）进行混合式特征选择
样本选择实验所用的恶意样本从 virusshare 下载，良性样本从 Google Play Store和小米应用市场下载。同时，为确保良性样本的绝对干净，将下载下来的良性样本都上传到 virustotal 扫描，选择无危险的样本为最终良性样本。最终是良性样本和恶意样本各449个
样本建立要自己编译
这三类信息的具体提取过程为：（1）使用“aapt dump permissions *.apk”命令获取permission 信息。（2）使用 backsmali 工具将.apk 文件逆向成一个个smali 文件，再扫描文件中使用了“invoke-virtual”语句调用的API以获取API信息。（3）使用 flowdroid 获取 source-sink 流，并用 python将其格式化。
感觉样本建立要不少时间
为啥英文论文只有个摘要看不见全文下午再看了。

Android恶意软件数据集
Android恶意软件数据集。

Android恶意软件基因组计划
在此项目中，我们专注于Android平台，旨在对现有的Android恶意软件进行系统化或特征化。特别是，经过一年多的努力，我们已经成功收集了1200多个恶意软件样本，涵盖了大多数现有的Android恶意软件家族，从2010年8月首次亮相到2011年10月才出现。

剖析Android恶意软件的出版物：表征和演变。周亚金，江旭贤。第33届IEEE安全与隐私研讨会（Oakland 2012）的会议记录。2012年5月，加利福尼亚州旧金山

主页（已停止共享数据集） http://www.malgenomeproject.org

M0Droid数据集
M0Droid基本上是android应用程序行为模式识别工具，用于识别android恶意软件并根据其行为对其进行分类。它利用内核级挂钩来捕获应用程序的所有系统调用请求，然后为应用程序的行为生成签名。

出版物 Damshenas M，Dehghantanha A，Choo KKR等。M0droid：基于Android行为的恶意软件检测模型[J]。信息隐私与安全学报，2015，11（3）：141-157。

主页 http://cyberscientist.org/m0droid-dataset/

博客 http://www.alid.info/blog/2015/2/4/android-malware-research-dataset

Drebin数据集
数据集包含来自179个不同恶意软件家族的5,560个应用程序。这些样本已在2010年8月至2012年10月期间收集，并由MobileSandbox项目提供给我们。您可以在论文中找到有关数据集的更多详细信息。

出版物 Arp D，Spreitzenbarth M，Hubner M等。Drebin：有效且可解释地检测您口袋中的android恶意软件[C] //程序。NDSS第17届网络和分布式系统安全研讨会。14。

主页 http://user.informatik.uni-goettingen.de/~darp/drebin/

基于ContagioDump的数据集
数据集是在野外看到的基于Android的恶意软件的集合。该恶意软件片段于2011年10月26日下载。样本中包含的恶意软件总数为189。我已根据可用的主要行为将它们定性地分为几类。我从各种反病毒公司的恶意软件报告中获得了它们的主要行为，如果该恶意软件将下载单独的有效负载作为其主要功能，则将其归为Trojan类别。如果恶意软件执行了特权升级攻击，则它属于特权升级类别。如果恶意软件主要是从手机中窃取数据，则被归类为信息窃取。如果该恶意软件发送了高级SMS消息，则说明它是一种高级SMS传输了恶意软件。

主页 http://cgi.cs.indiana.edu/~nhusted/dokuwiki/doku.php?id=datasets

AndroMalShare
AndroMalShare是一个致力于共享Android恶意软件样本的项目。它仅用于研究，不能用于商业用途。我们提供样本的统计信息，SandDroid扫描的每个恶意软件样本的详细报告以及反病毒产品的检测结果。您可以上传恶意软件样本以与他人共享，并且每个恶意软件样本都可以下载（仅注册用户）！

主页 http://sanddroid.xjtu.edu.cn:8080/#home

Kharon恶意软件数据集
Kharon数据集是完全颠倒并记录下来的恶意软件的集合。构造该数据集是为了帮助我们评估研究实验。它的构造需要大量的工作来理解恶意代码，触发它，然后构造文档。该数据集现已可用于研究目的，我们希望它将帮助您进行自己的实验。

出版物 CIDRE，EPI。Kharon数据集：显微镜下的Android恶意软件。从权威性安全性实验结果中学习（2016）：1。

主页 http://kharon.gforge.inria.fr/dataset/

AMD项目
从2010年到2016年，AMD包含24,553个样本，分为71个恶意软件家族中的135个类别。该数据集提供了有关Android恶意软件当前现状的最新图片，并与社区公开共享。

Li Y，Jang J，Hu X等人的出版物。通过恶意有效负载挖掘 [C] //国际攻击，入侵和防御研究研讨会，Android恶意软件得以集群。查尔斯·施普林格，湛，2017：192-214

魏芬，李Y，罗伊·S等。当前Android恶意软件的深入研究 [C] //入侵和恶意软件检测以及漏洞评估国际会议。施普林格，湛，2017：252-276。

主页 http://amd.arguslab.org

AAGM数据集
通过在半自动化的真实智能手机上安装Android应用程序来捕获AAGM数据集。该数据集由1900个应用程序生成。

出版物 Arash Habibi Lashkari，Andi Fitriah A.Kadir，Hugo Gonzalez，Kenneth Fon Mbah和Ali A.Ghorbani致力于建立基于网络的Android恶意软件检测和特征化框架，在第15届隐私，安全和信任国际会议的进行中，太平洋标准时间，加拿大卡尔加里，2017年。

主页 http://www.unb.ca/cic/datasets/android-adware.html

Android PRAGuard数据集
由于出于研究目的而检索恶意软件是一项艰巨的任务，因此，我们决定发布混淆的恶意软件数据集。

该数据集包含10479个样本，这些样本是通过使用七种不同的混淆技术对MalGenome和Contagio Minidump数据集进行混淆获得的。

出版物 Davide Maiorca，Davide Ariu，Igino Corona，Marco Aresu和Giorgio Giacinto。隐形攻击：深入了解混淆对Android恶意软件的影响。在计算机与安全，第一卷。51，第16-31页，2015年。

主页 http://pralab.diee.unica.it/en/AndroidPRAGuardDataset

AndroZoo
AndroZoo是一个不断增长的Android应用程序集合，它从包括官方Google Play应用程序市场在内的多个来源收集来的数据，目前包含5,781,781个不同的APK，数十种不同的AntiVirus产品已经（或将要对其进行分析）以了解哪些应用程序被检测为恶意软件。我们提供此数据集有助于正在进行的研究工作，并在Android Apps上启用新的潜在研究主题。通过将数据集发布给研究社区，我们还旨在鼓励我们的研究人员进行可重复的实验。

出版物 K.Allix，TF Bissyande，J.Klein和Y.Le Traon。AndroZoo：为研究社区收集了数百万个Android应用程序。采矿软件存储库（MSR）2016。

主页 https://androzoo.uni.lu/

做到不好写的一条路了，安卓恶意软件检测没有或者我找不到处理好的特征数据集现在要做就要下载apk文件反编译然后提取特征筛选处理成能用的数据集然后在训练。下载都成问题了。慢慢做