当前位置：首页 > 科技 > 软件

综合性能全面提升，书生・浦语 2.0 在阿里云魔搭开源首发

来源：责编：时间：2024-01-18 17:31:33 370观看

导读 1 月 17 日，上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生・浦语 2.0（InternLM2），模型开源可免费授权商用。该模型在阿里云魔搭社区（ModelScope）上首发。InternLM2 的核心

1 月 17 日，上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生・浦语 2.0（InternLM2），模型开源可免费授权商用。该模型在阿里云魔搭社区（ModelScope）上首发。

InternLM2 的核心理念在于回归语言建模的本质，致力于通过提高语料质量及信息密度，实现模型基座语言建模能力获得质的提升，进而在数理、代码、对话、创作等各方面都取得长足进步，综合性能达到同量级开源模型的领先水平。

InternLM2 在 2.6 万亿 token 的高质量语料上训练得到。沿袭第一代书生・浦语（InternLM）的设定，InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本，满足不同复杂应用场景需求。秉持“以高质量开源赋能创新”理念，上海 AI 实验室继续提供 InternLM2 免费商用授权。

阿里云魔搭社区已开设书生・浦语“模型品牌馆”专页，聚合该系列所有模型及体验接口，并推出了相关最佳实践教程，提前跑通模型的部署、推理和微调流程供开发者快速上手。在魔搭社区书生・浦语 2 模型页，开发者还可点击“Notebook 快速开发”，一键拉起阿里云人工智能平台 PAI，在云上对模型进行快速开发和部署。

▲魔搭社区书生・浦语 2 模型页截图

魔搭社区开源地址

魔搭书生・浦语 2.0 最佳实践

此前 9 月，书生・浦语 InternLM-20B 开源也以魔搭社区作为首发平台。作为国内规模最大的 AI 模型社区，魔搭聚集了国内头部人工智能机构贡献的 2700 多款 AI 模型，并成为诸多顶尖大模型的首发阵地。在魔搭上，开发者可一站式进行模型体验、下载、推理、调优、定制，并可调用阿里云免费算力，目前魔搭上开发者超过 360 万，模型下载量已破亿。

回归语言建模本质，筑牢大模型能力基础

上海 AI 实验室联合团队研究认为，对于大模型的研究应回归语言建模本质，通过更高质量的语料以及更高的信息密度，筑牢大模型能力基础。

为此，联合团队提出了新一代的数据清洗过滤技术，发展了多维度数据价值评估、高质量语料驱动的数据富集、针对性的数据补齐等方面的技术方法。

目前，InternLM 背后的数据清洗过滤技术经历三轮迭代升级，使用约 60% 训练数据即可达到使用第二代数据训练 1T token 的表现，模型训练效率大幅提升。

A graph of a number of dataDescription automatically generated with medium confidence

▲第三代数据清洗过滤技术大幅度提升模型训练效率

基于第三代数据清洗过滤技术，InternLM2 语言建模能力显著增强。

支持 200K 超长上下文，实现长文本中“大海捞针”

长语境输入及理解能力能显著拓展大模型的应用场景，然而，大模型有限的上下文长度仍为学界及业界的重要难题。

通过拓展训练窗口大小和改进位置编码，InternLM2 支持 200K token 的上下文，能够一次性接受并处理约 30 万汉字（约五六百页的文档）的输入内容，准确提取关键信息，实现长文本中“大海捞针”。

▲InternLM2“大海捞针”试验效果

性能全面提升，综合能力领先的开源模型

研究人员定义了语言、知识、推理、数学、代码、考试等六个能力维度，在 55 个主流评测集上对多个同量级模型的表现进行了综合评测。结果显示，InternLM2 的 7B 及 20B 版本性能在同量级模型中表现优异。在典型测试集上，InternLM2 只用 20B 参数的中等规模，即在整体表现上达到与 ChatGPT 比肩的水平。

▲InternLM2 与 ChatGPT 的评测结果对比

与此同时，综合性能增强带来下游任务全方位能力提升。

优秀的对话和创造体验

研究测试表明，InternLM2-Chat 可精准理解和遵循用户意图，具备较强的共情能力和丰富的结构化创作能力。

▲InternLM2 能够在对话中与用户“共情”

进行课程大纲等结构化创作时，InternLM2 可精准遵循用户提出的格式、数量、内容等要求；编写《流浪地球 3》剧本时，InternLM2 具备丰富的合理想象，如外星遗迹、量子纠缠的引入等，同时故事表现了人类面对危机时的勇气和团结精神。

工具调用能力整体升级

基于更强大、更具泛化性的指令理解、工具筛选与结果反思等能力，InternLM2 可支持复杂智能体的搭建，支持对工具进行多轮有效调用及多步骤规划，完成复杂任务。

联合团队针对多种任务构建了细粒度工具调用评测集 T-Eval，InternLM2-Chat-7B 在该评测集上表现超越了 Claude-2.1 和目前的开源模型，性能接近 GPT-3.5。

数理推理：会做题，还会可视化分析

InternLM2 在不依靠外部工具的情况下，100 以内简单运算准确率近 100%，1000 以内准确率达 80% 左右。在 GSM8K 和 MATH 评测中，InternLM2-20B 表现超过 GPT-3.5。

为应对复杂计算，InternLM2-Chat 还可借助代码解释器编写代码进行计算，或对推理的结果进行形式化验证，从而解决更加复杂的计算问题。

基于这些能力，InternLM2 还具备了数据分析和可视化实用能力，进一步贴近用户使用场景。

向 InternLM2 输入国家统计局公布的“2023 年 3-11 月份规模以上工业企业主要财务指标（分行业）”，InternLM2 能够分析数据并绘制折线图

本文链接：http://www.28at.com/showinfo-26-64371-0.html综合性能全面提升，书生・浦语 2.0 在阿里云魔搭开源首发

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：微服务和无服务器架构时代的持续测试

下一篇：云鲸智能扫拖一体机器人 J4 入选界面 2023“理想的生活”好物榜

标签：

热门焦点

K60至尊版狂暴引擎2.0加持：超177万跑分斩获性能第一

Redmi的后性能时代战略发布会今天下午如期举办，在本次发布会上，Redmi公布了多项关于和联发科的深度合作，以及新机K60 Ultra在软件和硬件方面的特性，例如：“K60 至尊版，双芯旗舰
Mate60手机壳曝光致敬自己的经典设计

8月3日消息，今天下午博主数码闲聊站带来了华为Mate60的第三方手机壳图，可以让我们在真机发布之前看看这款华为全新旗舰的大致轮廓。从曝光的图片看，Mate 60背后摄像头面积依然
小米官宣：2023年上半年出货量中国第一！

今日早间，小米电视官方微博带来消息，称2023年小米电视上半年出货量达到了中国第一，同时还表示小米电视的巨屏风暴即将开始。“公布一个好消息2023年#小米电视上半年出货量中国
天猫精灵Sound Pro体验：智能音箱没有音质？来听听我的

这几年除了手机作为智能生活终端最主要的核心之外，第二个可以成为中心点的产品是什么？——是智能音箱。手机在执行命令的时候有两种操作方式，手和智能语音助手，而智能音箱只
一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

8月5日消息，此前就有爆料称，一加首款折叠屏手机将会在第三季度上市，如今随着时间临近，新机的各种消息也开始浮出水面。据悉，这款新机将会被命名为“On
深度探索 Elasticsearch 8.X：function_score 参数解读与实战案例分析

在 Elasticsearch 中，function_score 可以让我们在查询的同时对搜索结果进行自定义评分。function_score 提供了一系列的参数和函数让我们可以根据需求灵活地进行设置。近期
自动化在DevOps中的力量：简化软件开发和交付

自动化在DevOps中扮演着重要角色，它提升了DevOps的效能。通过自动化工具和方法，DevOps团队可以实现以下目标：消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
微软邀请 Microsoft 365 商业用户，测试视频编辑器 Clipchamp

8 月 1 日消息，微软近日宣布即将面向 Microsoft 365 商业用户，开放 Clipchamp 应用，邀请用户通过该应用来编辑视频。微软于 2021 年收购 Clipchamp，随后开始逐步整合到 Microsof
OPPO K11采用全方位护眼屏：三大护眼能力减轻视觉疲劳

日前OPPO官方宣布，全新的OPPO K11将于7月25日正式发布，将主打旗舰影像，和同档位竞品相比，其最大的卖点就是将配备索尼IMX890主摄，堪称是2000档位影像表

综合性能全面提升，书生・浦语 2.0 在阿里云魔搭开源首发

K60至尊版狂暴引擎2.0加持：超177万跑分斩获性能第一

Mate60手机壳曝光致敬自己的经典设计

小米官宣：2023年上半年出货量中国第一！

天猫精灵Sound Pro体验：智能音箱没有音质？来听听我的

一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

深度探索 Elasticsearch 8.X：function_score 参数解读与实战案例分析

自动化在DevOps中的力量：简化软件开发和交付

微软邀请 Microsoft 365 商业用户，测试视频编辑器 Clipchamp

OPPO K11采用全方位护眼屏：三大护眼能力减轻视觉疲劳

最新推荐

猜你喜欢

热门推荐

相关资讯