人工智能概览
AI的社会认知
• 新闻:用极尽夸张的标题报道AI。
• 电影:用想象力构建虚拟的AI。
• 生活中的应用:AI让生活更便捷的同时又让我们担心自己的隐私。
什么是人工智能
• 它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。1956年由约翰.麦卡锡首次提出,当时的定义为“制造智能机器的科学与工程”。人工智能的目的就是让机器能够像人一样思考,让机器拥有智能。时至今日,人工智能的内涵已经大大扩展,是一门交叉学科。
AI、机器学习、深度学习的关系
• 人工智能:是研究、开发用于模拟、延伸和扩展人的智能的理论、方法及应用系统的一门新的技术科学。
• 机器学习:专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。是人工智能的核心研究领域之一。
• 深度学习:源于人工神经网络的研究,多层感知器就是一种深度学习结构。深度学习是机器学习研究中的一个新的领域,它模仿人脑的机制来解释数据,例如图像,声音和文本。
AI产业生态
• 人工智能的四要素是数据、算法、算力、场景。要满足这四要素,我们需要将AI与云计算、大数据和物联网结合以智能社会。
符号主义
符号主义(逻辑主义、心理学派、计算机学派)基本思想:
1.人类的认知过程是各种符号进行推理运算的过程。
2.人是一个物理符号系统,计算机也是一个物理符号系统,因此,能用计算机来模拟人的智能行为。
3.知识表示、知识推理、知识运用是人工智能的核心。符号主义认为知识和概念可以用符号表示,认知就是符号处理过程,推理就是采用启发式知识及启发式搜索对问题求解的过程。
• 符号主义:符号表示知识,推理得到认知结果。
• 符号主义中,苹果的概念可以用苹果这个节点或一组表示其属性的节点表示。
连接主义
• 连接主义源于源于仿生学,特别是人脑模型的研究。对于连接主义的基本思想:
• 思维的基本是神经元,而不是符号处理过程
• 人脑不同于电脑,并提出连接主义的电脑工作模式,用于取代符号操作的电脑工作模式
• 连接主义中,一个概念用一组数字,向量,矩阵或张量表示。概念由整个网络的特定**模式表示。每个节点没有特定的意义,但是每个节点都参与整个概念的表示。例如,在符号主义中,猫的概念可以由一个“猫节点”或表示猫的属性的一组节点表示,例如,“两只眼睛”,“四条腿”和“蓬松的”。 “但是,在连接主义中,各个节点并不表示特定的概念,要找到“猫节点”或“眼睛神经元”是不可能的。
行为主义
• 符号主义偏向于理论逻辑推理;连接主义逻辑性弱,解释性较弱,着重于结果。行为主义偏向于应用实践,从环境不断学习以不断修正动作。
• 行为主义(进化主义、控制论学派)的基本思想:
• 智能取决于感知和行动,提出智能行为的“感知-动作”模式
• 智能不需要知识、不需要表示、不需要推理;人工智能可以像人类智能一样逐步进化;智能行为只能在现实世界中,通过与周围环境的不断交互而表现出来
AI将改变所有行业
算法的偏见
• 算法的偏见主要源于数据的偏见。我们在用人工智能算法做决策时,算法可能是根据已有的数据,学会歧视某一个体。如根据种族,性别或其他因素,作出有歧视倾向的决策。即使种族或性别等因素被排除在数据之外,算法也能够利用人的姓名或地址中的信息做出有歧视倾向的决定。
• 举例:
• 用一个听起来像非洲裔美国人的名字进行搜索可能会产生一个用于查询犯罪记录的工具的广告,而其他名字搜索这种情况不太可能发生
• 在线广告商倾向于向女性用户展示商品价格更低的广告
• 谷歌的图片软件曾错将黑人的图片标记为“大猩猩”
• 除了源于数据的偏见,某些公司现有的算法本身可能也会存在歧视问题。但是这些算法和数据不是开放的,而各个国家和机构对很少有相应的监管措施。
隐私问题
• 现有的人工智能算法都是数据驱动,我们需要大量的数据来训练模型。我们每天在享受人工智能带来的便捷的同时,例如Facebook,谷歌,亚马逊,阿里巴巴等科技公司在获取大量的用户数据。而这些数据会揭露我们生活的方方面面(如政治、宗教和性等)。
• 举例:
• 在上网时,原则上,科技公司可以记录每次点击,每页滚动、观看任何内容的时间以及浏览历史
• 科技公司可以根据我们每天的打车记录,消费记录,知道我们在哪儿,去哪儿,做了什么事,教育程度,消费能力、个人偏好等个人隐私
还能眼见为实吗?
• 随着计算机视觉的发展,图像及视频的可行信也越来越低。现在我们可以通过PS,GAN(生成对抗网络)等技术制作假图像,让人难分真伪。
• 举例:
• 通过PS,把犯罪嫌疑人P在一个从未去过的地方或将他与从未见过的人放在一起,以此来制造假证据
• 通过PS,很多减肥药广告可以改变人物的外观以达到减肥前后的对比
• 如Lyrebird 是一个可以从几分钟录音样本中自动模仿人声音的工具,也可能会被不法分子利用
• 利用GAN网络生成家居图像发布在租房和订酒店的平台
数据 - 合成数据训练
• AI算法的训练需要大量的数据,而手工注释训练数据费力又耗时,有些数据甚至难以获取,例如训练无人车时需要的危险情况数据。
• 2018年3月,英伟达推出了结构化域随机化(Structured Domain Randomization,SDR )仿真系统,称可以在虚拟现实环境中测试自动驾驶汽车安全行驶数十亿英里。
• 举例:
• 无人车行驶过程中遇到雷暴。SDR系统会模拟这种情况下车载传感器生成的数据。合成的传感器数据再提供给计算机进行决策,就好像自己真的在开车一样,然后把命令回传给虚拟汽车
• 利用AI算法本身帮助生成更“逼真”的合成图像来训练AI。比方说英伟达就用GAN来生成假的脑瘤MRI图像
隐私保护 - 联邦学习
• 我们的日常互动可以产生大量的数据。这些数据如果能够被用于AI模型的训练能够大大改善其表现,比如可以更加精确地预测你接下来要输入什么字。但是这些用户数据都会涉及到个人隐私和数据安全问题。
• Google提出了联邦学习,旨在利用这一丰富数据集的同时保护敏感数据。利用联邦学习,数据依然个人终端中里,不用发送或存储到云服务器上,由云服务器将最新的算法发往随机选择的用户设备上。
• 流程大致为智能终端的算法得到改进后,基于本地化的数据对模型进行更新。之后只有这种更新的状态(以及来自其他用户的更新状态)会回传给云服务器以改善“全局状态”,然后再不断重复这一过程。