第十五期“AI未来说·青年学术论坛”带你了解大数据运用

全文共1184字，预计学习时长3分钟

2020年5月30日，第15期“AI未来说·青年学术论坛”大数据专场论坛以“线上平台直播+微信社群图文直播”形式举行。本次论坛邀请了复旦大学计算机科学技术学院副教授、CDA三级认证数据科学家、腾讯云和百度云机器学习认证讲师赵卫东副教授，中国科学技术大学副教授、硕士生导师徐童副教授，百度自然语言处理部研发工程师李伟彬，中国科学技术大学在读博士生张乐博士作为嘉宾，从“理论+实践”带领参会人员了解大数据的运用。

赵卫东老师作“大数据的系统观——大数据的小思考”的报告分享

复旦大学计算机科学技术学院的赵卫东老师分享了大数据处理的常见思维及实际运用中的问题。首先，赵老师强调了“分形”的概念，即事物的整体和局部具有一定的相似性，基于此，当从整体上获得大数据有困难的时候，就可以利用分形来洞察大数据的性质，将大数据问题自然转换成小数据问题，“以小见大”。接着，赵老师以套牌检测、交通疏导、医疗诊断等复杂问题为例，指引大家从系统观出发，寻找大数据问题的真正规律并由此构建简单模型。其后，赵老师讲到了系统集成观。具体来说，国内大数据不仅数据量大，而且分布非常广，里面包括关键数据的多模态性、视频、声音、文字、图像等等。以此为基础，在处理自贸区管理、偷漏税检测等实际问题时，就需要依靠区域性大平台将数据集成、融合起来，并通过模型实现预测未来的效果。最后，赵老师表明现在的大数据虽然给人工智能提供了非常有力的支撑，但从系统的观点出发，其处理能力还远远达不到支撑强人工智能的水平——目前的机器智能仅能起到辅助性的作用。在未来，如何去做人机的融合，从而提升整个系统的能力，或许才是大数据要充分利用的点。

第十五期“AI未来说·青年学术论坛”带你了解大数据运用

徐童老师作“AI×Talent：数据驱动的智能人才计算”的报告分享

中国科学技术大学的徐童老师分享了AI在人才计算方面的应用。首先，徐老师从招聘角度引出了智能人才计算这一话题，认为从数据挖掘或机器学习的视角，可以将其归纳为分类问题、转化为排序问题、拓展出预测员工未来发展前景的需求。为解决上述三项问题、突破当前人力管理模式的困境，中科大研究团队与百度人才智库（TIC）团队合作开展了三项工作，分别为智能招聘助手，岗位分配过程中智能人岗分配，以及人才管理中的高潜力人才预测。具体来说，智能招聘助手的核心目标在于帮助企业实现招聘环节的规范化，手段是采用标准化过程从海量个性化简历中抽取技能实体，并尝试用大规模查询日志设计标签传播的方法实现降噪。智能人岗匹配的具体目标是将每个人分配到合适的岗位上去，手段是通过深度学习的方法，将简历和岗位需求全部做语义表征，映射到一个空间里实现两方面的可比，并在此基础上，给这两部分加额外注意力机制，以衡量不同技能或者不同经历对于匹配过程贡献度到底如何。预测高潜力人才的任务在于在最短时间内从新员工中判断出究竟哪些人是比较有发展前途的。其机制主要是基于动态社交画像高潜力人才识别建模方法，对于局部网络信息，采用图卷积神经网络套一层LSTM的方式来描述动态变化的过程；对于全局网络信息，则采用一些基本的度量，最后对两者进行拼接并进行分类。

第十五期“AI未来说·青年学术论坛”带你了解大数据运用

李伟彬工程师作“2020国际大数据比赛：基于PGL的图神经网络基线系统”的报告分享

百度自然语言处理部研发工程师李伟彬分享了2020国际大数据比赛中，基于百度飞桨推出的图学习框架Paddle Graph Learning ( PGL， https://github.com/PaddlePaddle/PGL )实现的基线系统。首先，李老师对“高致病性传染病的传播趋势预测”赛题进行了简介，指出其目标是根据各个城市以及区域人口迁移情况，预测未来一段时间城市中各个区域新增患者数量，属于典型的时间序列预测问题。接着，李老师介绍了图神经网络的基本知识。具体来说，图网络是非结构化的数据，即图网络中不同节点邻居数量可能是不一样的，每个节点的计算图不同，这样就难以使用传统的CNN、LSTM等处理规则序列的工具处理。因此，百度推出了基于消息传递编程范式图神经网络框架PGL，其以百度飞桨为核心框架，研发图引擎可以支持游走类、消息传递类、知识表示类等前沿图学习算法。其后，李老师依次介绍了PGL的的四大特性：高效、规模、易用和丰富。“高效”指PGL利用LoD Tensor可以并行对消息进行聚合，使得聚合效率大大提高；“规模”指PGL研发了一套分布式解决方案，可以支持十亿节点、百亿边巨图训练；“易用”指PGL支持异构图的游走和消息传递双机制；“丰富”指PGL内置丰富图神经网络模型，方便用户调用图相关算法。最后，李老师介绍了本次竞赛中基于PGL的基线系统。具体来说，本次竞赛使用了PGL框架构建图神经网络基线系统，首先把城市中区域作为节点，区域间关联强度作为边，这样就形成了一个空间维度图网络，可以在空间维度进行图卷积操作，从而表征出不同区域间的关联情况；另一方面，人口迁移情况是随时间变化的，因此不同时间点都可以形成一个对应该时间点的图网络，这样在时间维度上形成了多个图网络，对于每个区域在其时间维度上进行图卷积操作，学习该区域时间维度变化情况。综合空间维度和时间维度，基线系统的实现参考了STGCN模型。

第十五期“AI未来说·青年学术论坛”带你了解大数据运用

张乐博士作“基于人才流动表征的企业竞争力分析”的报告分享

中国科学技术大学张乐博士从人才流动的角度介绍了一种企业竞争力分析方法。首先，张乐博士介绍了两篇课题组最新发表在KDD2020年关于竞争力分析的论文。第一篇论文是用表征学习方法分析公司之间的合作竞争关系。第二篇论文是用表征学习方法进行POI竞争力分析。其次，张乐博士对预备内容进行了说明，从领英网收集简历，从中提取出工作流转记录，基于此构建人才流动网络，并进一步基于原网络和转置网络中的个性化PageRank相似性定义竞争力。然后张乐博士介绍了基于人才流动表征的竞争力分析方法，主要学习每个公司的两种吸引力向量，进而揭示他们竞争关系。最后张乐博士介绍了具体实验，从领英数据集抽取构建四个岗位人才流转网络，设计了几个任务验证模型效果。张乐博士表示未来会考虑更加复杂的属性，如员工任期和动态因素等，来丰富企业竞争分析的方法。

“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、中科院计算机网络信息中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会、数学与系统科学研究院研究生会，百度为支持单位，读芯术、PaperWeekly为合作自媒体。该系列讲座以贯彻落实国家人工智能发展规划和推动我国人工智能技术水平进步为目标，通过邀请业界专家、青年学者和优秀学生介绍领域前沿技术成果和分享教学、科研和产业化经验，促进产、学、研结合，助力我国人工智能的蓬勃发展。

第十五期“AI未来说·青年学术论坛”带你了解大数据运用