当前位置：首页 > 科技 > 互联网

李开复回应“零一万物开源Yi大模型抄袭LLaMA”质疑

来源：责编：时间：2023-11-15 17:17:15 401观看

导读 11月15日消息，近日，创新工场董事长兼 CEO 李开复创办的AI大模型创业公司“零一万物”推出 Yi-34B 和 Yi-6B 两大开源大模型。然而在 Yi-34B 的 Hugging Face 开源主页上，有开发者质疑该模型使用

11月15日消息，近日，创新工场董事长兼 CEO 李开复创办的AI大模型创业公司“零一万物”推出 Yi-34B 和 Yi-6B 两大开源大模型。

然而在 Yi-34B 的 Hugging Face 开源主页上，有开发者质疑该模型使用了 Meta LLaMA 的架构，只对两个张量（Tensor）名称进行了修改等等。

对此，零一万物正式公开了对 Yi-34B 训练过程的说明。李开复也转发了该说明，并表示：“零一万物 Yi-34B 模型训练的说明也回应这两天大家对于模型架构的探讨。全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2-> Yi，行业逐渐形成大模型的通用标准 (就像做一个手机app开发者不会去自创 iOS、Android 以外的全新基础架构)。01.AI 起步受益于开源，也贡献开源，从社区中虚心学习，我们会持续进步”。

以下为：零一万物对 Yi-34B 训练过程的说明

就零一万物的观察和分析，大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段，基本上国际主流大模型都是基于Transformer的架构，做attention，activation，normalization，positional embedding等部分的改动，LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异，全球开源社区基于主流架构的模型变化非常之多，生态呈现欣欣向荣，国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT/LLaMA 的架构。然而，大模型持续发展与寻求突破口的核心点不仅在于架构，而是在于训练得到的参数。

模型训练过程好比做一道菜，架构只是决定了做菜的原材料和大致步骤，这在大多数人的认知中也逐步形成共识。要训练出好的模型，还需要更好的“原材料”（数据）和对每一个步骤细节的把控（训练方法和具体参数）。由于大模型技术发展还在非常初期，从技术观点来说，行业共识是与主流模型保持一致的模型结构，更有利于整体的适配与未来的迭代。

零一万物在训练模型过程中，沿用了GPT/LLaMA的基本架构，由于LLaMA社区的开源贡献，让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型，并根据实际的训练框架重新实现了训练代码，用自建的数据管线构建了高质量配比的训练数据集（从3PB原始数据精选到3T token高质量数据）。除此以外，在 Infra 部分进行算法、硬件、软件联合端到端优化，实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作，往往比起基本模型结构能起到巨大的作用跟价值。

零一万物团队在训练前的实验中，尝试了不同的数据配比科学地选取了最优的数据配比方案，投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting（训练过程监测）技巧等。这一系列超越模型架构之外，研究与工程并进且具有前沿突破性的研发任务，才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how积累。在模型训练同时，零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说，我们实验了Group Query Attention（GQA）、Multi-Head Attention（MHA）、Vanilla Attention 并选择了GQA，实验了Pre-Norm和Post-Norm在不同网络宽度和深度上的变化，并选择了Pre-Norm，使用了 RoPE ABF作为positional embedding等。也正是在这些实验与探索过程中，为了执行对比实验的需要，模型对部分推理参数进行了重新命名。

在零一万物初次开源过程中，我们发现用和开源社区普遍使用的LLaMA 架构会对开发者更为友好，对于沿用LLaMA部分推理代码经实验更名后的疏忽，原始出发点是为了充分测试模型，并非刻意隐瞒来源。零一万物对此提出说明，并表达诚挚的歉意，我们正在各开源平台重新提交模型及代码并补充LLaMA 协议副本的流程中，承诺尽速完成各开源社区的版本更新。

我们非常感谢社区的反馈，零一万物在开源社区刚刚起步，希望和大家携手共创社区繁荣，在近期发布Chat Model之后，我们将择期发布技术报告，Yi Open-source会尽最大努力虚心学习，持续进步。

本文链接：http://www.28at.com/showinfo-21-25958-0.html李开复回应“零一万物开源Yi大模型抄袭LLaMA”质疑

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：李开复旗下AI公司“零一万物”开源Yi大模型被指抄袭LLaMA

下一篇：抖音生活服务换帅由抖音集团商业化负责人浦燕子兼任

标签：

热门焦点

小米降噪蓝牙耳机Necklace分享：听一首歌读懂一个故事

在今天下午的小米Civi 2新品发布会上，小米还带来了一款新的降噪蓝牙耳机Necklace，我们也在发布结束的第一时间给大家带来这款耳机的简单分享。现在大家能见到最多的蓝牙耳机
7月安卓手机好评榜：三星S23Ultra好评率第一

性能榜和性价比榜之后，我们来看最后的安卓手机好评榜，数据来源安兔兔评测，收集时间2023年7月1日至7月31日，仅限国内市场。第一名：三星Galaxy S23 Ultra好评率：95.71%在即将迎来新
6月iOS设备性能榜：M2稳居榜首 A系列只能等一手3nm来救

没有新品发布，自然iOS设备性能榜的上榜设备就没有什么更替，仅仅只有跑分变化而产生的排名变动，毕竟苹果新品的发布节奏就是这样的，一年下来也就几个移动端新品，不会像安卓厂商，一
Raft算法：保障分布式系统共识的稳健之道

1. 什么是Raft算法？Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”（“可靠、可复制、可冗余、可容错”）的首字母缩写。Raft算法是一种用于在分布式系统
花7万退货退款无门：谁在纵容淘宝珠宝商家造假？

来源：极点商业作者：杨铭在淘宝购买珠宝玉石后，因为保证金不够赔付，店铺关闭，退货退款难、维权无门的比比皆是。“提供相关产品鉴定证书，支持全国复检，可以30天无理由退换货。&
东方甄选单飞：有些鸟注定是关不住的

作者：彭宽鸿来源：华尔街科技眼&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一
携众多高端产品亮相ChinaJoy，小米带来一场科技与人文的视听盛宴

7月28日，全球数字娱乐领域最具知名度与影响力的年度盛会中国国际数码互动娱乐展览会（简称ChinaJoy）在上海新国际博览中心盛大开幕。作为全球领先的科
8月见！小米MIX Fold 3获得3C认证：支持67W快充

这段时间以来，包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料，而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
SN570 NVMe SSD固态硬盘价格与性能兼具

SN570 NVMe SSD固态硬盘是西部数据发布的最新一代WD Blue系列的固态硬盘，不仅闪存技术更为精进，性能也得到了进一步的跃升。WD Blue SN570 NVMe SSD的包装外

李开复回应“零一万物开源Yi大模型抄袭LLaMA”质疑

小米降噪蓝牙耳机Necklace分享：听一首歌读懂一个故事

7月安卓手机好评榜：三星S23Ultra好评率第一

6月iOS设备性能榜：M2稳居榜首 A系列只能等一手3nm来救

Raft算法：保障分布式系统共识的稳健之道

花7万退货退款无门：谁在纵容淘宝珠宝商家造假？

东方甄选单飞：有些鸟注定是关不住的

携众多高端产品亮相ChinaJoy，小米带来一场科技与人文的视听盛宴

8月见！小米MIX Fold 3获得3C认证：支持67W快充

SN570 NVMe SSD固态硬盘价格与性能兼具

最新推荐

猜你喜欢

热门推荐

相关资讯