通用智能体定义
人是一个“通用智能本体”,相当于很多部件的综合体。
通用智能体有三个特性:
可迁移性(不用进行底层设计),可扩展性(计算机模块),可群智性(知识增长,经验可共享)
卢老师开篇提到机器人倒水的例子很形象生动。这里引出了一个术语元操作流模型:不可以再分割的基本操(manipulation)
元操作构建:需要一个元操作选择函数T()来决定当前时刻的元操作选择,从而形成元操作序列。其优势把很多复杂动作都分割成了单一不可再分割的操作,并且这是一种简单任务描述。
寻找任务共性,可以保证不同任务能使用相同元操作序列。
体系结构
通用智能本体五大结构
在元操作流模型的基础上,文中提出了通用智能本体应当具备的五大结构:
- 执行模块。由移动平台和操作平台组成,负责完成基本动作单元与操作;
- 感知模块。负责接受外界视觉、听觉、力觉信号,同时解析环境中的视觉、听觉、力觉等语义;
- 任务编译器。是用户向通用智能本体布置任务的统一界面,使得用户使用统一的“语言”在实际应用中获得元操作流的生成;
- 知识引擎。在统一协议下,用户可以对物体和物体操作进行知识编辑,从而对知识库进行扩展,形成具有知识可迁移性的知识引擎;遇到新物体时,智能体本身会调用相应最接近的知识来进行推理。
- 中央GIA处理器。作为整个系统中的中心计算模块,中央GIA处理器解析任务编译器的任务后,读取感知模块信号,并调用知识引擎中的知识做出综合决策,最后向执行模块发出指令。《中国工程院学报》
衡量标准为 机人成本比(AHCR,Agent-Human Cost Ratio)
人类行为理解
元操作学习
人类行为知识引擎
人类行为知识引擎(HAKE human activity knowledge engine)
To see the activity
To parse the activity
To understand the activity
行为理解
视频行为理解,alpha video、pose 代码开源
行为理解相关工作
Primitive Model:人类行为
High level大脑行为
Low level:类神经反应“元操作”
小脑行为,人工智能与自动化有区别,人工智能要理解没有见过的物体,可以像人一样顺手就抓取的(对齐关节点,知晓相似性CorresPondenceNet,CPNet)不同的人来标注关键点云。
二范式,两个不同模型下的点是否为相同的。
Push distance
杯子长得不一样,但是我们可以看出来语义上的一样。数学同胚理论:从知识的角度,抓住事物的本质,达到机器从来没有见过钳子,但是会使用的目的。
机器人抓取在学习方面反复行为会造成成本损失。
力学算法,bottle cap challenge,瓶子是没有固定的,(按摩机器人会用到)。
机器学习不难,但是机器教学会很难。我们的研究有一个曲线,从工业开始,服务业,医疗一直到家用。
每个部件暴力学习完,综合各个部件,提高准确度。
雷达和双目还是有缺点(自己过后总结),点云处理,学术价值,机械臂操作与人类动作还是有很大的区别的。
无人驾驶:增强学习只能在仿真平台,虽然是一个很好的方向,但是不能拿真实的车试错。
参考阅读
Flexiv发表《通用智能本体》:下一代通用人工智能方向
马上科普教育科技有限公司