大规模预训GPT(Generative PreTraining)是OpenAI在2018年提出的模型,大规模预训练模型(大模型)渐渐成为了AI算法领域的热点。
工作流程视角
• 算法设计环节:机器视觉、语音识别、自然语音处理、知识图谱
• 算法实现环节:深度学习框架,训练、推理部署,对模型的调参优化
• 算法运行环节:AI芯片和AIDC超算中心,提供硬件基础
AI平台:少量企业参与的AI高地之争
• 训练软件框架:实现深度学习训练算法的模块化封装
• 模型生产平台:实现模型的工业级生产
• 推理部署框架:实现模型生产完成后的工业级高效、自动的部署
• 数据平台:包括数据采集、数据标注、数据生产、数据存储等功能
训练框架:调节参数,生成参数
训练框架是AI的重要基石,也是AI发展战略的制高点。当算法变成改造甚至颠覆软件行业的力量时,最后核心就是看这些AI的公司有没有平台化的能力,即“能够批量、高效、比竞争对手更及时地供应优质算法。
推理框架:与硬件和设备端紧密相关
推理框架:主要部署在设备端和云端,因此与硬件厂商紧密相关。
开源框架的选择:规模效应与生态
四大顶级深度学习框架阵营可以满足绝大部分开发者要求。社区规模效应:维护力量、贡献人员决定了算法库扩展及时性、API水平,软件框架规模效应较强。
行业更新热点在“大模型”
传统机器学习里,模型过小则欠拟合,模型过大则过拟合。深度学习里Double Descent现象在2018年揭示,随着模型参数变多,Test Error是先下降,再上升,然后第二次下降;原则上,在成本可接受的情况下,模型越大,准确率越好。
OpenAI :GPT-3
GPT-3在许多NLP数据集上均具有出色的性能,包括翻译、问答和文本填空任务,这还包括一些需要即时推理或领域适应的任务,例如给一句话中的单词替换成同义词,或执行3位数的数学运算。
GPT-3工具DALL·E和“逻辑”优化
基于GPT-3构建,仅使用了120亿个参数样本,相当于GPT-3参数量的十四分之一;有利于降低了深度学习需要的数据标注量,文本和图像理解结合起来
优势显著
• 自监督学习功能,大幅降低对数据量的需求:GPT舍弃Fine-tuning,先使用海量数据预训练大模型,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。大幅降低后续对数据量的需求。
• 预训练大模型+细分场景微调,更适合长尾落地:大规模预训练可以有效地从大量标记和未标记的数据中捕获知识,通过将知识存储到大量的参数中并对特定任务进行微调,极大扩展模型的泛化能力。
• 有望进一步突破现有模型结构的精度局限:可能继续突破精度上限。
AI落地和碎片化需求同时出现
业界在2015-2017年后开始发生变化,AI走出实验室和商业模式转变:
• 工业场景更复杂的逻辑:编程模式从静态网络结构描述向动态计算过程转变。
• SDK商业模式可能无法在国内落地:早期试图复制海外SDK销售路线,但这一模式无法在国内复制。
两种路径的总结
设计并训练工业级的高性能AI模型需要大量的成本投入和深厚的技术沉淀,包含多场景汇总的海量数据,复杂的模型设计和训练算法,以及复杂的软件框架和硬件系统在内的大型计算基础设施,AI公司需要突破技术发展的瓶颈。
-END-
本文链接:http://www.28at.com/showinfo-40-64-0.html【申万宏源】必然的碎片化AI落地,哪种路径可能胜出? | 元宇宙Meta洞见
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com
上一篇: 【东方证券】虚拟世界照进现实,元宇宙中有什么? | 元宇宙Meta洞见
下一篇: 元宇宙将会如何塑造未来的工作方式?