数字化和信息化
数字化转型-数字化工具和数字化体系
硬件基础--运维团队 网络团队
数字化--业务在线,海量数据-数据驱动,关键数据-业务驱动,核心数据-人事驱动
新的业务逻辑和组织管理模式
IT基础设施
企业数据中心-- 数据中心-计算机机房 中心网络
云计算中心 -- 大数据平台和AI平台以及一些业务所在的地方--适合计算密集型的负载
边缘中心--边缘计算--在边缘部署应用,在边缘计算数据
云-管-端
管道=利用5G作为高速边缘管道
端-- 边缘计算
AI-- AI训练建模在云端
-- AI推理在边缘,靠近用户去做服务
大数据平台
大数据平台的构建--有一个业务,就可以有数据接入,数据采集,数据同步和传输,数据计算和数据挖掘以及数据可视化
采用的工具栈有开源的,也有商业的,搭建和应用起来比较方便,尤其结合云计算技术,弹性伸缩和自动编排等功能
数据建设都是为了用户更快、更方便、更放心的使用数据
实时数据: 数据质量和数据时效
数据管理-数据时效保障 - 目标- 机制-方法-效果-成本
数据质量保障
数据质量
数据质量反馈回路
关注数据 pipeline 的实践、政治和人的价值观,
通过使用流程、标准、基础设施和激励措施来提高数据的质量和地位
AI平台:
AI平台和大数据平台有很多相似的地方,然而构建起来,思路会有所不同
AI平台在概念验证和生产阶段的所面临的问题也不同。
以数据为中心的视觉 AI 建立一个端到端平台
深度学习的核心要素是算力、算法和数据,如何构建一个高效的端到端AI平台,直接决定了业务的天花板和迭代进化效率
算法工程师希望可以像搭积木一样自由进行模型设计组装,并且快速进行效果验证
机器学习研究和机器学习应用
工业级机器学习
解决的问题的复杂性不单是关注算法模型的代码的开发,
而是一个涉及在离线闭环的,包括特征、样本,模型已经应用的的全链路问题。
专业的数据标注服务商
监督学习所需要的大规模、高质量的标注数据集是AI产业发展的刚需,也是AI工业化的主要瓶颈之一
资源管理、项目管理和标注工具箱
数据采集、准备和管理
数据标注行业正从简单的劳动力密集型向专业型数据服务过渡。
人力资源的培训和评估:标注员和质检员-数据的提交和打回 数据验收,自动化训练,自动打分和反馈
前沿的技术架构:
迭代:
数据迭代: 数据采集和管理平台的更新
更多时候,你需要定制数据
工具迭代: 传统工具和自动化工具以及AI工具
对同一个场景提出不同的数据标注要求
不同团队需要标注不同的数据属性
数据合规性和隐私保护的要求-- 云端标注和私有化部署
算法迭代:
训练
部署: 边缘设备 环境变化
一套从模型训练到端上推理的完整 AI 架构
业务层 中台层 AI 接口层、AI 算法层和 AI 底层库 系统层 硬件层
开发环境:
数据管理平台:数据采集 数据清洗 数据标注 数据回流
AI训练平台: 模型训练 模型仓库 模型评测 模型压缩
应用环境:功能 性能 成本
AI 应用落地
整体框架层面设计:
通用数据接口
图形图像库
性能方面的探索和实践:前后处理和模型推理
准则:
你无法只用理论上的可行性来应付一切
从以模型为中心到以数据为中心的机器学习开发的转变:同步开发模型和数据: 在开始阶段有AI模型,到AI模型很多的时候
自己标注数据,至少在开始的时候
MLOps--》 DevOps
追求算法的先进性--追求算法的应用价值
参考
端侧 AI SDK 框架,快手爆款特效落地背后的秘密 https://mp.weixin.qq.com/s/K5yCIFnLqUFkjtNITWbsZw
别再把数据当作商品了 https://mp.weixin.qq.com/s/fiGKxYdQd_ZlDkCgyBTuRQ
实时数仓不保障时效还玩个毛?https://mp.weixin.qq.com/s/WbqwXHb2IPmvh1rdA74jLw