腾讯广告通过模型能力的提升助力广告主达成生意目标,同时兼顾用户体验,实现多赢局面。
模型是广告系统中的一个复杂且重要的组成部分。之所以说它很复杂,不仅在于庞大的用户量及广告场景,也在于广告这种天然的多模态数据,要求模型具有强大的拟合能力。
思考一下,如果你是一名工程师,怎样才能让你的模型理解广告的内容、主题、目标受众?对于手机、电脑等不同设备,食品、汽车等不同行业,销量、名声等不同目标,模型怎样才能理解不同的广告场景?又怎样才能从百万条广告中为受众选择合适的推送?面对流量竞争加剧的大环境,广告系统如何用技术破局,通过模型能力的提升助力广告主达成生意目标,同时兼顾用户体验,实现多赢局面?
不得不承认,抛开工程难度不说,想要拍脑袋得出一套好的解决方案,也基本是不可能的。
那么业界顶尖的广告系统,它到底是怎么做的呢?本文将从腾讯广告混元 AI 大模型及广告大模型出发,介绍腾讯广告系统背后的技术,以及如何带来广告系统的硬指标——商品交易总额(GMV)的提升。
大模型:广告系统的灵魂
在了解腾讯广告系统具体细节之前,我们先要有一个概念:大规模预训练模型,或者说大模型,不仅是 NLP、CV 的未来,同时也是广告系统的灵魂。
归根究底,广告系统需要解决以下两个关键问题:
如何理解各种广告文案、图片与视频?
如何将合适的广告,在合适的时间推送给合适的人?
而这两点,恰恰是大模型能够处理的。一方面,多模态大模型能充分理解广告内容;另一方面,广告推荐大模型,能充分考虑庞大的用户与广告库,找到最合适的推荐。
拥有了大模型,手上也就有了武器。
混元 AI 大模型充分编码文本、图片、视频等各种类型的广告数据,并理解它们都是什么,以及想要表达什么;腾讯广告大模型则基于之前理解的广告内容,思考到底要推荐给哪些人群,才能既帮广告主达成营销目标,又能让信息满足受众的需要。
混元 AI 大模型:内容理解是一切的基础
在广告系统中,广告的视频、图片、文案是天然的多模态数据,能充分理解它们的也必然是最新的大规模多模态训练。BERT 证明了 Transformer 无监督预训练能理解自然语言,MAE 证明了 Transformer 无监督预训练能理解图像数据。这种情况下,统一用 Transformer 建模图像与文字等数据,构建一种统一的大规模多模态预训练模型就成为了炙手可热的领域。
为此,针对内容理解,混元 AI 大模型使用大量无监督广告内容,构建一个通用的多模态内容理解预训练模型,并预期它能为各种下游理解任务提供更强的基础能力。
该内容理解模型主要基于 Transformer 结构,并根据真实业务场景与广告数据特性,提出多尺度视觉特征融合、层次化注意力交互、大规模对抗训练等诸多改进和设计。