当前位置:首页 > 科技  > 资讯

广告出价进入“自动驾驶”时代,快手提出生成式强化学习出价技术

来源: 责编: 时间:2025-09-30 10:16:23 55观看
导读近日,快手首次提出生成式强化学习出价技术,并将其应用于大规模广告系统中。该项技术显著提升了广告竞价的智能化水平,实现了出价策略从传统“依赖单步状态决策”到新一代“序列决策”的关键跨越,在为

近日,快手首次提出生成式强化学习出价技术,并将其应用于大规模广告系统中。该项技术显著提升了广告竞价的智能化水平,实现了出价策略从传统“依赖单步状态决策”到新一代“序列决策”的关键跨越,在为广告主带来更高投放回报的同时,也提升了平台整体收益,真正实现了双赢。2025年至今,该技术已成功推动快手广告收入提升3%,成效显著。Lxe28资讯网——每日最新资讯28at.com

广告出价:实时竞价中的“智能大脑”Lxe28资讯网——每日最新资讯28at.com

在实时竞价(RTB)广告系统中,出价模块作为连接广告主与流量的核心枢纽,需要在多重约束条件下实现广告投放效果的最优化。Lxe28资讯网——每日最新资讯28at.com

这一过程面临三大挑战。首先是既要控制支出,又要追求效益。广告主不仅需要将单日花费严格控制在预算范围内,还应力求降低每次转化的成本,实现成本效益的双重优化。Lxe28资讯网——每日最新资讯28at.com

其次是,未来环境的不确定性。系统难以预知即将到来的流量状况与竞争对手行为,因此必须依赖实时花费与成本等数据,动态调整出价策略以应对波动市场。Lxe28资讯网——每日最新资讯28at.com

最后是决策之间的连锁影响。每一次出价不仅直接影响广告的展示与消耗,还会改变账户状态(如剩余预算),进而干扰后续出价决策,形成一个连续且复杂的序列决策问题。Lxe28资讯网——每日最新资讯28at.com

三代技术革新,快手提出新一代生成式强化学习出价技术Lxe28资讯网——每日最新资讯28at.com

快手出价技术已历经三代演进:从PID控制——基于当前状态与目标的偏差进行调节,响应直接但适应性有限,难以应对复杂多变的竞价环境;到第二代MPC预测模型——能够预测短期未来并优化动作,但预测范围有限,易陷局部最优;再到第三代强化学习——通过历史数据学习不同状态下的最优出价策略,最大化长期收益,兼顾效果与安全性。Lxe28资讯网——每日最新资讯28at.com

近年来,尽管强化学习在自动出价中表现优异,但其决策仍依赖单步状态信息,对序列历史利用不足。而生成式模型擅长对序列数据进行建模和生成,却不擅长直接优化目标收益。Lxe28资讯网——每日最新资讯28at.com

面对这一挑战,快手创新融合两类技术,提出生成式强化学习出价技术——在继承生成模型序列建模能力的基础上,引入强化学习的目标导向优化机制,实现出价策略在长序列决策中的新突破。Lxe28资讯网——每日最新资讯28at.com

两大核心算法实现广告出价“多维思考”,助推智能决策升级Lxe28资讯网——每日最新资讯28at.com

在将生成模型应用于强化出价策略的过程中,主要面临两大挑战:一是对高质量数据集的依赖较强,限制了泛化能力;二是生成模型难以直接优化序列整体收益,导致出价策略与广告主全局目标存在偏差。Lxe28资讯网——每日最新资讯28at.com

Lxe28资讯网——每日最新资讯28at.com

针对这些挑战,快手提出了GAVE和CBD两大创新算法。GAVE算法融合了Score-based RTG机制与价值函数引导的动作探索策略,显著提升了离线训练中的探索能力,该成果助力团队荣获NeurIPS 2024自动出价竞赛双赛道冠军。Lxe28资讯网——每日最新资讯28at.com

Lxe28资讯网——每日最新资讯28at.com

CBD算法则聚焦于生成模型与优化目标的对齐问题,引入“Completer(扩散补全)”和“Aligner(偏好对齐)”双模块,通过补全未来状态轨迹并进行校准,使出价策略更贴合广告主真实需求,提升了系统长程规划与决策可解释性。Lxe28资讯网——每日最新资讯28at.com

2025年至今,生成式强化学习出价技术已在快手广告系统中全面部署,并推动平台广告收入提升3%。在多项关键客户指标上实现突破——如在成本控制场景中,消耗提升2.0%,CPA达标率提升1.9%。Lxe28资讯网——每日最新资讯28at.com

展望未来,快手将围绕两大方向持续演进。一是构建出价基座大模型,整合多场景数据训练通用模型,发挥规模效应;二是发展出价推理大模型,引入大语言模型增强推理能力,提升可解释性与复杂决策水平。Lxe28资讯网——每日最新资讯28at.com

快手将继续推动自动出价技术向更高层次的智能化迈进,为数字营销行业注入创新动力。Lxe28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-16-189866-0.html广告出价进入“自动驾驶”时代,快手提出生成式强化学习出价技术

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 岚图泰山开启预订 旗舰实力定义新时代中式豪华

下一篇: 快手“AI创想剧场”成果丰硕,AIGC影像创作营在中国传媒大学圆满举办

标签:
  • 热门焦点
  • 小米官宣:2023年上半年出货量中国第一!

    今日早间,小米电视官方微博带来消息,称2023年小米电视上半年出货量达到了中国第一,同时还表示小米电视的巨屏风暴即将开始。“公布一个好消息2023年#小米电视上半年出货量中国
  • 对标苹果的灵动岛 华为带来实况窗功能

    继苹果的灵动岛之后,华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示,华为的实况窗可以更高效的展现出实时通知,比如锁屏上就能看到外卖、打车、银行
  • 7月安卓手机性价比榜:努比亚+红魔两款新机入榜

    7月登场的新机有努比亚Z50S Pro和红魔8S Pro,除了三星之外目前唯二的两款搭载超频版骁龙8Gen2处理器的产品,而且努比亚和红魔也一贯有着不错的性价比,所以在本次的性价比榜单
  • 十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 19个 JavaScript 单行代码技巧,让你看起来像个专业人士

    今天这篇文章跟大家分享18个JS单行代码,你只需花几分钟时间,即可帮助您了解一些您可能不知道的 JS 知识,如果您已经知道了,就当作复习一下,古人云,温故而知新嘛。现在,我们就开始今
  • 三分钟白话RocketMQ系列—— 如何发送消息

    我们知道RocketMQ主要分为消息 生产、存储(消息堆积)、消费 三大块领域。那接下来,我们白话一下,RocketMQ是如何发送消息的,揭秘消息生产全过程。注意,如果白话中不小心提到相关代
  • 年轻人的“职场羞耻感”,无处不在

    作者:冯晓亭 陶 淘 李 欣 张 琳 马舒叶来源:燃次元“人在职场,应该选择什么样的着装?”近日,在网络上,一个与着装相关的帖子引发关注,在该帖子里,一位在高级写字楼亚洲金
  • 小米MIX Fold 3下月亮相:今年唯一无短板的全能折叠屏

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都有新的进展,其中荣耀、三星都已陆续发布了最新的折叠屏旗舰,尤其号荣耀Magi
  • 3699元!iQOO Neo8 Pro顶配版今日首销:1TB UFS 4.0同价位唯一

    5月23日,iQOO推出了全新的iQOO Neo8系列,包含iQOO Neo8和iQOO Neo8 Pro两个版本,其中标准版搭载高通骁龙8+,而Pro版更是首发搭载了联发科天玑9200+旗舰
Top