当前位置:首页 > 元宇宙 > AI

腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

来源: 责编: 时间:2024-07-06 07:40:53 237观看
导读 7 月 4 日消息,腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型

7 月 4 日消息,腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。cDG28资讯网——每日最新资讯28at.com

此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作文生图数据集。cDG28资讯网——每日最新资讯28at.com

腾讯混元 DiT 模型升级

腾讯混元 DiT 模型宣布了三大更新:推出小显存版本与 Kohya 训练界面,并升级至 1.2 版本,进一步降低使用门槛的同时提升图片质量。cDG28资讯网——每日最新资讯28at.com

基于 DiT 架构的文生图模型生成图片质感更佳,但对显存的要求却非常高,混元 DiT 因此推出小显存版本,最低 6G 显存即可运行优化推理框架,对使用个人电脑本地部署的开发者比较友好。cDG28资讯网——每日最新资讯28at.com

经过与 Hugging Face 合作,小显存版本、LoRA 与 ControlNet 插件,都已经适配到 Diffusers 库中。开发者无需下载原始代码,仅用三行代码仅可调用,简化了使用成本。cDG28资讯网——每日最新资讯28at.com

同时,混元 DiT 宣布接入 Kohya,让开发者可以低门槛地训练专属 LoRA 模型。cDG28资讯网——每日最新资讯28at.com

Kohya 是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。cDG28资讯网——每日最新资讯28at.com

用户可以通过图形化界面,完成模型的全参精调及 LoRA 训练,无需涉及到代码层面的细节。训练好的模型符合 Kohya 生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。cDG28资讯网——每日最新资讯28at.com

混元 Captioner

在提升模型易用性的同时,腾讯混元团队最新开源了打标模型 —— 混元 Captioner。cDG28资讯网——每日最新资讯28at.com

借助打标模型,开发者可以快速生成数据集。具体来说,文生图开发者将原始图片集导入混元 Captioner,后者将生成标注;也可以导入图片与原始描述,利用混元 Captioner 过滤其中的无关信息,并完善和优化图片描述,以提高数据质量。cDG28资讯网——每日最新资讯28at.com

目前,业界对于图片描述文本的生成,主要使用通用多模态 Captioner 模型,存在描述过于简单或繁琐(与画面描述的无关信息过多)、缺少背景知识导致无法识别知名人物和地标等问题,并且许多模型并非中文原生,中文描述不够精准。cDG28资讯网——每日最新资讯28at.com

cDG28资讯网——每日最新资讯28at.com

▲混元 Captioner 对图片描述进行结构化与准确度提升混元

Captioner 模型号称针对文生图场景专门进行优化:cDG28资讯网——每日最新资讯28at.com

构建了结构化的图片描述体系;cDG28资讯网——每日最新资讯28at.com

在模型层面,通过注入人工标注、模型输出、公开数据等多种来源提升 Caption 描述的完整性;cDG28资讯网——每日最新资讯28at.com

注入知名文学作品形象、地标、食物、动物、中国元素与知识等背景知识。cDG28资讯网——每日最新资讯28at.com

cDG28资讯网——每日最新资讯28at.com

▲Capiton 模型的背景知识更好,能够识别宫保鸡丁

cDG28资讯网——每日最新资讯28at.com

▲Captioner 模型结构化图片描述体系

附腾讯混元开源文生图大模型相关链接:cDG28资讯网——每日最新资讯28at.com

官网:https://dit.hunyuan.tencent.com/cDG28资讯网——每日最新资讯28at.com

代码:https://github.com/Tencent/HunyuanDiTcDG28资讯网——每日最新资讯28at.com

模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiTcDG28资讯网——每日最新资讯28at.com

论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdfcDG28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4968-0.html腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 商汤科技 CEO 徐立:AI 行业很热但未到“超级时刻”,需要应用来支撑

下一篇: 一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

标签:
  • 热门焦点
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • “虚拟人”角斗场,基于“硬实力”下的人性平衡法则?

    在打工人“反内卷”的当下,一众虚拟人却“内卷”了起来。从北京春晚虚拟人苏小妹与刘宇演绎歌舞《星河入梦》,央美毕业的虚拟人夏语冰登上央视节目《对话》,湖南
  • 中国区块链产业生态地图报告(2021)

    区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新,以服务实体经济、政务民生以及公共服务等领域为落脚点,以期实现整个地区和产业的资
  • 音乐NFT平台里的下一匹黑马是谁?

    NFT 销售额在 2021 年开始暴涨,从 2018 年的仅 4069 万美元的交易量,到 2021 年,NFT 交易量飙升至 442 亿美元以上,并不断刷新记录并达到新的高度。预测到2025 年N
  • 扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

    前身为Facebook的Meta公司今天展示了一个人工智能系统的Demo,该系统使人们能够通过语音命令生成或导入虚拟世界中的事物。该公司认为这个被称为 "Builder Bot "
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 赵长鹏预测SoicalFi为今年主要驱动力,新的机会在哪里?

    作者:五火球教主前不久,赵长鹏在《财富》杂志印度版块刊登评论。他表示:“DeFi 在 2021 年出现了快速创新,我们可能会在 2022 年看到蓬勃发展的兴趣和创新,其中 Soc
  • 全球十大元宇宙概念游戏

    A股市场中,不少游戏公司早早搭上了元宇宙概念。举例,中青宝宣称将发布一款元宇宙概念的模拟经营类游戏,尽管游戏尚在研发中,这一消息已经让中青宝的股价在51个交易
Top