当前位置:首页 > 科技  > 资讯

阿里巴巴开源Qwen1.5-110B:1100亿参数挑战Meta Llama3-70B性能

来源: 责编: 时间:2024-04-28 08:53:42 210观看
导读4月28日消息,阿里巴巴最近公开宣布,他们已成功开源了Qwen1.5系列中的首个千亿参数模型——Qwen1.5-110B。据称,在基础能力的评估测试中,该模型的表现足以媲美meta旗下的Llama3-70B模型,并且在Chat评估中也大放异彩,这包括了

4月28日消息,阿里巴巴最近公开宣布,他们已成功开源了Qwen1.5系列中的首个千亿参数模型——Qwen1.5-110B。据称,在基础能力的评估测试中,该模型的表现足以媲美meta旗下的Llama3-70B模型,并且在Chat评估中也大放异彩,这包括了MT-Bench和Alpacaeval2.0两项基准测试。p9D28资讯网——每日最新资讯28at.com

这款Qwen1.5-110B模型沿用了Qwen1.5系列一贯的Transformer解码器架构,并引入了分组查询注意力(GQA)机制,使得模型在推理时更为高效。这款模型支持长达32Ktokens的上下文长度,同时兼容多种语言,包括但不限于英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语以及阿拉伯语。p9D28资讯网——每日最新资讯28at.com

p9D28资讯网——每日最新资讯28at.com

阿里巴巴将Qwen1.5-110B与当前顶尖的语言模型meta-Llama3-70B和Mixtral-8x22B进行了详尽的对比测试。测试结果显示,新的110B模型在基础能力上至少达到了Llama-3-70B模型的水平。阿里巴巴团队指出,他们在这一模型中并未对预训练方法进行大幅调整,因此性能的提升主要归功于模型规模的扩大。p9D28资讯网——每日最新资讯28at.com

p9D28资讯网——每日最新资讯28at.com

此外,阿里巴巴还在MT-Bench和Alpacaeval2.0上对其进行了Chat评估。结果显示,与之前发布的72B模型相比,110B模型在这两个Chat模型基准评估中的表现显著更佳。这一持续改善的评估结果表明,即便没有大幅改变训练方法,更强大、规模更大的基础语言模型也能催生出更优秀的Chat模型。p9D28资讯网——每日最新资讯28at.com

据ITBEAR科技资讯了解,Qwen1.5-110B不仅是Qwen1.5系列中规模最大的模型,更是该系列首个参数超过1000亿的模型。与最近发布的顶尖模型Llama-3-70B相比,其性能表现同样出色,并且明显优于先前的72B模型。这一突破性的进展无疑将为自然语言处理领域带来新的可能性。p9D28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-16-102378-0.html阿里巴巴开源Qwen1.5-110B:1100亿参数挑战Meta Llama3-70B性能

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 盒马会员服务重启,黄金/钻石会员年费维持不变

下一篇: 比克电池连续四届亮相CIBF大会,以创“芯”赋能绿色生活

标签:
  • 热门焦点
  • 小米降噪蓝牙耳机Necklace分享:听一首歌 读懂一个故事

    在今天下午的小米Civi 2新品发布会上,小米还带来了一款新的降噪蓝牙耳机Necklace,我们也在发布结束的第一时间给大家带来这款耳机的简单分享。现在大家能见到最多的蓝牙耳机
  • 一文看懂为苹果Vision Pro开发应用程序

    译者 | 布加迪审校 | 重楼苹果的Vision Pro是一款混合现实(MR)头戴设备。Vision Pro结合了虚拟现实(VR)和增强现实(AR)的沉浸感。其高分辨率显示屏、先进的传感器和强大的处理能力
  • Golang 中的 io 包详解:组合接口

    io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是对Reader和Writer接口的组合,
  • 一篇聊聊Go错误封装机制

    %w 是用于错误包装(Error Wrapping)的格式化动词。它是用于 fmt.Errorf 和 fmt.Sprintf 函数中的一个特殊格式化动词,用于将一个错误(或其他可打印的值)包装在一个新的错误中。使
  • 如何通过Python线程池实现异步编程?

    线程池的概念和基本原理线程池是一种并发处理机制,它可以在程序启动时创建一组线程,并将它们置于等待任务的状态。当任务到达时,线程池中的某个线程会被唤醒并执行任务,执行完任
  • 三万字盘点 Spring 九大核心基础功能

    大家好,我是三友~~今天来跟大家聊一聊Spring的9大核心基础功能。话不多说,先上目录:图片友情提示,本文过长,建议收藏,嘿嘿嘿!一、资源管理资源管理是Spring的一个核心的基础功能,不
  • 苹果、三星、惠普等暂停向印度出口笔记本和平板电脑

    集微网消息,据彭博社报道,在8月3日印度突然禁止在没有许可证的情况下向印度进口电脑/平板及显示器等产品后,苹果、三星电子和惠普等大公司暂停向印度
  • 国行版三星Galaxy Z Fold5/Z Flip5发布 售价7499元起

    2023年8月3日,三星电子举行Galaxy新品中国发布会,正式在国内推出了新一代折叠屏智能手机三星Galaxy Z Fold5与Galaxy Z Flip5,以及三星Galaxy Tab S9
  • 联想的ThinkBook Plus下一版曝光,键盘旁边塞个平板

    ThinkBook Plus 是联想的一个特殊笔记本类别,它在封面放入了一块墨水屏,也给人留下了较为深刻的印象。据有人爆料,联想的下一款 ThinkBook Plus 可能更特殊,它
Top