比特币反洗钱:Anti-Money Laundering in Bitcoin 论文阅读

Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics 论文阅读

前提
概要

AML（反洗钱）法规
AML（反洗钱）法规对于加密数字货币

ELLIPTIC数据集

图结构

节点与边
特征
时序信息

一些关于数据集的说明

任务和方法

GCN的运用

总结

前提

最近想做关于交易链分析的问题，师姐推荐了这篇文章以及文中用到的数据集，并且是二分类问题比较任意上手，刚好昨天系统地梳理了GCN的知识，趁热打铁阅读一下这篇论文，看看有什么可以拓展的地方～～

概要

反洗钱(AML)法规在保障金融体系方面发挥了关键作用，并且本文提供了Elliptic数据集，一个超过200K比特币交易(节点)的时间序列图，234K定向支付边，以及166个节点特征，是任何加密货币中公开可用的最大的标记交易数据集。本文中的比较算法有：Logistic Regression (LR), Random Forest (RF), Multilayer Perceptrons (MLP)和Graph Convolutional Networks (GCN)

AML（反洗钱）法规

文中提到其既有必要性也有不合理性，必要在于如今传统的金融系统在制止洗钱犯罪方面做得很差，而洗钱会使国家金融蒙受巨大损失，而其不合理之处在于降低了金融包容性，使得低收入入群与处于社会边缘的人，受到了进入社会体系受限和参与成本相对较高的限制。

AML（反洗钱）法规对于加密数字货币

由于数字货币在境内和境外实现低成本的点对点现金转账，提高了金融包容性，却也使得许多罪犯利用比特币等数字货币的假名隐藏在众目睽睽之下，实施勒索软件攻击，操纵黑市交易非法商品和服务。所以Bank Secrecy Act (BSA) 规定了资金服务业务必须充分了解用户。为了应对这些公开数据带来的机遇，加密货币情报公司应运而生，专门针对加密货币领域提供“反洗钱”解决方案。比特币的假名是犯罪分子的一个优势，而公开数据是调查人员的一个关键优势。而我们要研究的就是如何利用公开数据来实现反洗钱的目的。

ELLIPTIC数据集

这篇文章没提出什么新的数据分析方法，感觉最大的贡献就是这个公开数据集了，一下将介绍这个数据集的组成。

图结构

Elliptic数据集将比特币交易映射到合法类别(交易所exchanges、钱包供应商wallet providers、矿工miners、合法服务licit services等)和非法类别(诈骗scams、恶意软件malware、恐怖组织terrorist organizations、勒索软件ransomware、庞氏骗局Ponzi schemes等)的实体。根据比特币的原始数据，构造一个图并进行标记，节点表示交易，边表示比特币(BTC)从一个交易到下一个交易的ow。如果发起交易的实体(即控制与特定交易的输入地址相关联的私钥的实体)属于一个licit (illicit)类别，则给定的交易被视为licit(而不是illicit)

节点与边

共有203,769个节点和234,355条定向边支付。从另一个角度来看，整个比特币网络在撰写本文时大约有4.38亿个节点和11亿个边。在Elliptic数据集中，2%(4,545)被标记为class1(不合法)。21%(42,019)被标记为class2 (licit)。其余的交易并没有就合法与非法进行标记，但有其他特征信息。

特征

每个节点有166个相关特性。前94个特征表示关于交易（节点）的本地信息——包括时间步长timestamp、输入/输出的数量、交易金额、输出量和汇总的数字，例如输入/输出接收(花费)的平均BTC和与输入/输出相关的平均输入(输出)交易数量。其余的72个特性称为聚合特性，它们是通过从中心节点上向前/向后一跳地聚合事务信息来获得的——为相同的信息数据(输入/输出的数量、事务费用等)提供相邻交易的最大值、最小值、标准差和相关系数。

时序信息

每个节点都有一个时间戳，表示交易被比特币网络确立的估计时间。有49个不同的time step，平均间隔约两周。每个time step都包含一个交易的单个连接组件，这些交易在区块链上出现的时间间隔不超过3小时;不同time step之间没有边连接。显然，在特定的time step中，节点之间的时间戳非常接近，因此它们中的每一个都可以被看作是时间上的瞬时“快照”。每个时间步骤的节点数量在一段时间内相当一致(从1,000到8,000个节点)。参见下图。
比特币反洗钱:Anti-Money Laundering in Bitcoin 论文阅读

一些关于数据集的说明

这个作者也提到了，在构建72个聚合特征时，通过直接构建邻居事务的本地特征的统计聚合(最小、最大等)来解决异构邻居的问题。一般来说，这个解决方案是次优的，因为它携带了一个显著的信息丢失。另外本文提出更高数量的输入和相同地址的重用通常与更高的地址集群相关联，这会导致交易实体的匿名性降低。另一方面，在一笔交易中合并多个地址控制的资金在交易成本(费用)方面提供了好处。因此，对于大量的用户请求，避免匿名保护措施的实体很可能是合法的(例如exchange)。相反，非法活动可能倾向于使用较少输入的事务，以减少去匿名化地址聚类技术的影响。

任务和方法

任务：我们希望在不增加假阴性率的情况下降低假阳性率，即在不允许更多罪犯的情况下，让更少无辜的人参与进来。逻辑回归和随机森林是该任务的基准方法。图形深度学习也成为AML的潜在工具。
使用Elliptic数据集的情况下，对该数据执行的任务是进行事务筛选，以评估与给定的加密货币钱包的交易相关的风险。具体来说，每一笔未标记的比特币交易都将被归类为非法或合法。
另外，基准的方法（逻辑回归、多层感知器(MLP)和随机森林）使用的是前92个特征，所以没有运用到邻居节点的信息。

GCN的运用

这里没什么好介绍的，就是传统的GCN方法，以及提出了一个Skip-GCN将第一层节点的初始特征信息也加权放到了最后一层。

总结

大致就是将这个Elliptic数据集运用在了多种不同的方法上的一篇论文，看了之后对数据集的组成有了一些了解，并且可以直接运用GCN的方法在其中。