再夺全球顶级竞赛CVPR NTIRE冠军，打造更好用户体验，淘宝拥有哪些内容技术？

不知不觉间，内容电商似乎已经成为人们生活中不可或缺的存在：在闲暇时间，我们已经习惯于拿出手机，从电商平台的直播间随手下单自己心仪的商品。

尽管优质的货品、实惠的价格、精致的场景布置、有趣的内容输出都是非常关键的影响因素，这些也必须基于两个前提：画质要高清、播放要流畅。曾经，有不少商家和主播因为直播间画质较差的问题而苦恼，不了解如何实现高画质开播。

在一系列前沿音视频技术的加持下，淘宝内容技术团队解决了这个问题。

下图是一个直播间画质体验极致打磨案例，主播通过团队自研的一系列音视频技术，包括视频编码、视频增强处理、视频质量评价等，实现了超低码率的 1080p 高清直播：

format-jpg

左：720p 直播；右：超低码率 1080p 直播。

同样还有短视频画质体验极致打磨案例，通过团队自研的上述音视频技术，实现了视频清晰度和纹理细节的大幅提升：

format-jpg

左：增强前；右：增强后。

不难发现，在上述案例中，改造后的画面质感变得更好，从「标清」飞跃到了「超清」，人像肤色也变得更自然，连商品色彩都更加准确了。这种肉眼可识别的提升，都来自团队提供的音视频技术能力加持。

上述提到的一系列自研音视频技术，包括视频编码器（淘宝自研的 S265）、视频增强方案（STaoVideo）、无参考视频质量评价模型（MD-VQA）以及媒体处理系统（TMPS），并通过接入低延时传输网络 GRTN，为淘宝的直播和短视频提供底层核心技术，打造业界领先的音视频体验，尤其是视频画质和流畅度。

近年来，图像和视频处理的一系列技术也经历了巨大的变革，包括超分处理、噪声去除等等。这些技术都是为了实现更好的画质服务，同时也希望尽量降低内容生产、处理和分发过程的总体成本。

但从技术层面上说，如何分析、定位视频内容存在的问题并找到有针对性的改造方法，仍然是一个复杂的过程。而所有的视频内容处理方法，都基于一个非常重要的前置环节：视频质量评价。

一场聚焦「视频质量评价」的顶级比拼

在视频内容行业规模不断增长的背景下，全球范围内的众多机构开始围绕视频处理的一系列前沿命题开展竞赛，希望以领先技术推动行业进步。近年来，「视频质量评价」这一命题受到的关注度也不断攀升。

CVPR NTIRE（New Trends in Image Restoration and Enhancement）是计算机视觉和视频领域最具影响力的全球性赛事，今年的赛事由苏黎世联邦理工学院计算机视觉实验室主办。往年赛事覆盖许多图像和视频处理的经典任务，比如图片和视频超分、图片抖动去除、噪声去除等，吸引了全球众多技术团队的踊跃参与。

format-jpg

今年的 CVPR NTIRE 比赛增设了一个全新的方向：视频质量评价，且只设置了单个赛道，即「无参考视频质量评价」。

主办方构建了包含 1,211 个真实应用场景的视频的数据集，对其进行包括色彩、亮度、和对比度增强、去抖动、去模糊等增强处理，并对处理后的视频进行打分作为 GT（ground truth，真实的有效值）。参赛团队通过各自技术方案对上述视频打分，与 GT 越接近名次越高。

本场比赛云集了国内外顶级的几十只参赛队伍，包括字节、快手、网易、小米、Shopee 在内的知名科技企业，以及北京航空航天大学、新加坡南洋理工大学等高校。来自淘宝音视频技术团队的同学组成「TB-VQA」队伍，经过激烈的角逐，从 37 支队伍中脱颖而出。团队所提交的质量评价方法 TB-VQA 在主得分（Main Score）、SRCC（Spearman Rank Order Correlation Coefficient）及 PLCC（Pearson Linear Correlation Coefficient，SRCC 和 PLCC 越高表明与 GT 越接近）三项指标均位居第一。

format-jpg

CVPR NTIRE 2023 视频质量评价比赛排行榜。

此次冠军是团队继 MSU 2020 和 2021 世界编码器比赛、CVPR NTIRE 2022 视频超分与增强比赛夺魁后，再次在音视频核心技术的权威比赛中折桂。

众所周知，从参考视频可用性的维度出发，视频质量评价一般可以分成三类：全参考视频质量评价、部分参考视频质量评价、和无参考视频质量评价。为什么本场比赛要将「无参考视频质量评价」设置为唯一的赛道？想必这一点令许多人感到好奇。

这与近年来互联网内容视频化的趋势密不可分，从生活、娱乐到学习，视频都已经成为了很多人获取信息的第一介质。相比于文字，视频的理解门槛更低，人脑对于视觉信息的处理速度也比文字更快。其中，UGC 视频内容几乎占据了整个互联网视频流量中的 70% 到 80%。人们既消费这些 UGC 视频内容，也在创造着自己的「作品」。任何人都可以使用一台手机拍摄、上传短视频，也可以开通自己的直播账号，分享自己的生活。

但 UGC 视频的质量往往是参差不齐的。首先是因为其质量受制于拍摄设备、拍摄环境、拍摄技巧等因素，即使视频内容的制作方极具经验且原始视频质量非常高，一旦经过平台的各种处理、分发环节或是其他用户的二创，消费者在另一端看到的视频效果都有可能打折扣。

在缺乏理想的视频参考源的质量评价场景逐渐成为主流的趋势下，无参考视频质量评价作为质量评价的主要的技术手段，在过去的几年里越来越受到广泛关注。这也是 CVPR NTIRE 设置「无参考视频质量评价」赛道的出发点之一。

那么，为什么淘宝内容技术团队能够一举拿下这场比赛的冠军？接下来，让我们深入了解一番冠军方案。

夺冠背后的 VQA 技术

目前，无参考视频质量评价的主流方法包括：基于图像识别或者图像质量评价任务的预训练模型来提取视频的帧级特征、考虑时序上的相关性回归特征或者进一步结合时域特征、以及针对视频失真进行端到端的特征表征学习等。

在本次比赛中，TB-VQA 团队提出的方法基于端到端的特征表征学习，并且考虑到近年来 Swin Transformer 在 CV 领域取得巨大成功，使用 Swin Transformer V2 替换较为传统的卷积神经网络（CNN）骨干网络 ResNet 提取空域特征。同时，为了更好地融合时空域特征，在时空特征融合模块中，TB-VQA 团队引入了一个 1×1 卷积层，它加深了从预训练网络的中间阶段提取的空间特征，以弥补浅层和深层特征之间的差距。此外，为了解决常见的质量评价数据集规模过小、大模型容易过拟合的问题，TB-VQA 团队同时在空域和时域两个维度进行数据增强，提高模型性能。

模型设计

如图 1 所示，TB-VQA 团队所提出的无参考视频质量评价模型的框架，包括空域特征提取模块、时域特征提取模块和时空特征融合回归模块。其中，空域特征模块提取空间失真相关特征，时域特征提取模块提取运动相关信息，此外，考虑到运动信息对失真感知的影响，团队进一步融合时空域特征，然后通过特征回归映射到最终的质量分数。

format-jpg

TB-VQA 模型的网络架构示例。

具体而言，这一框架的设计基于以下思考：

语义特征作为重要的空域特征经常用于质量评价，其描述图像中物体的物理特性、物体之间的时空关系、以及物体的内容信息等，属于图像的高维特征。对于不同的图像内容，语义特征会影响人眼的视觉感知：人眼通常无法容忍纹理丰富的内容（例如草坪、地毯）的模糊，而对纹理简单的内容（例如天空、墙面）的模糊相对不敏感。综上考虑，该架构利用从预训练的 Swin Transformer V2 网络倒数第二层 Transformer 模块输出的特征作为帧级的空间域特征。

手机拍摄时的抖动会导致视频发生时域失真，并且，其无法被视频空域特征有效地描述。因此，为了提高模型的准确度，该架构利用预训练的 SlowFast 网络获取视频片段级的运动特征，作为时域特征表征。

由于不同层空域特征之间存在较大的差异，对其进行直接拼接不利于时空特征融合，因此该架构先对倒数第二层输出特征进行卷积处理，然后再与最后一层输出的空间特征融合以及空域特征进行融合，并通过两层全连接层回归得到视频片段级质量分数，如图 2 所示。

时空域特征融合与回归。

数据增强

由于本次比赛官方提供的训练数据集共包括 839 个视频，不足以训练基于 Transformer 的模型。因此，TB-VQA 团队从数据集增强策略和大型数据集预训练两个方面入手，进一步提高模型的性能。

视频质量评价方法常采用在图像中随机 crop 固定大小 patch 的方式进行空间数据增强。作为对比，TB-VQA 团队同时考虑考虑空间和时间数据增强，如图 3 所示。

format-jpg

时空域数据增强示例。

其中，整个视频会被分成 T 个视频片段（每秒一个片段）。提取空域特征时，每个视频片段随机抽取 1 帧。同时，为保留帧间的时间关联性，抽样帧之间的时间间隔保持不变。

此外，考虑到 LSVQ 视频质量评价数据集有 38,811 个视频样本，是目前最大的开源质量评价数据集。因此，TB-VQA 团队先在 LSVQ 数据集上对模型进行预训练，之后基于特定的任务以相对小型的数据集微调模型。

「特别重要的是，不管是面向比赛的数据集，还是面向日常业务的海量内容，视频质量评价的模型都需要强大的泛化能力，以识别不同的视频质量以及各种各样的视频场景。」淘宝音视频技术的参赛同学总结本次参赛的经验时表示。

值得注意的是，这次比赛的冠军方案 —— 视频语义、失真、运动多维信息融合方案，是 TB-VQA 团队同学在日常业务研发中探索出的新方法。基于日常业务的经验积累，尽管本场比赛从赛题发布到最后提交结果大概只有一个月的时间，TB-VQA 团队还是交出了一份满意的答卷。

此前，团队自研了无参考视频质量评价模型 —— MD-VQA（Multi-Dimensional Video Quality Assessment），综合视频的语义、失真、运动等多维度信息衡量视频绝对质量的高低。目前，MD-VQA 已经全面应用于包括淘宝直播、淘宝信息流、淘宝逛逛等淘宝内容业务，「量化」并监控视频业务的大盘画质变化，快速、精准地筛选出不同画质水位的直播间和短视频，帮助提升平台内容画质。

以淘宝直播为例，MD-VQA 可提供分钟级的在线质量监控能力，能够快速、精准地筛选不同画质水位的直播间，协助线上低画质 bad case 的挖掘分析，实时提醒主播画质问题方面的瓶颈问题。

淘宝音视频技术团队负责人总结道：「无论是短视频还是直播，都存在一个问题 —— 源头的画质并不一定是最好的，比如用户可能使用一款低端手机设备去拍摄、开播。面向这种应用场景，我们希望为淘宝甚至业界提供的无参考视频质量评价方案，能够发挥类似 VMAF 在有参考质量评价方法的影响力。」

从质量评价到编码、增强处理，淘系音视频技术的演进之路

视频质量评价之后，视频编码、增强处理等环节的技术水平同样对用户的最终视频体验起到决定作用。

这些也是团队始终在思考的方向：「在包括视频内容的供给和分发等环节的整个视频业务生命周期中，视频处理技术对于整体视频的画质影响最为重要。」而消费者对于视频画质的需求是越来越高的，比如要兼顾较高的清晰度和播放的流畅度，也要控制从生产到下发的整体成本。这意味着平台的视频处理技术演讲必须面对千变万化的市场需求和业务体量爆炸式增长所带来的各种挑战。

为此，团队支持短视频、直播等内容的整体解决方案保持着持续、高速的迭代。

淘宝音视频技术团队主要承载着其中的视频处理技术，尤其是保障视频高画质和流畅度。通过视频编码器 S265、视频增强方案 STaoVideo、无参考视频质量评价模型 MD-VQA、媒体处理系统 TMPS 以及低延时传输网络 GRTN 的接入，打造业界领先的音视频体验。通过持续的技术打磨和算法创新力求高质量、低成本赋能淘宝内容业务，助力淘宝内容化战略，所沉淀的平台技术和产品能力亦可被集团其它业务复用。这些多年来沉淀的技术能力，也曾经在多个音视频核心技术的国际权威比赛中折桂。

在视频编码方面，团队自研的奇点编码器 S265 和 S266，在 MSU 视频编码器大赛中连续两届取得佳绩。

MSU（莫斯科国立大学）世界视频编码器大赛是视频编码领域最权威的全球性顶级赛事，迄今已由 MSU 的 Graphics & Media Lab 连续举办了十七届，其评测报告被业界广泛认可，吸引了包括 Google、Netflix、Intel、Nvidia、腾讯、字节、华为等国内外知名科技企业参与，代表了行业发展的风向标。

S265 和 S266 相比业界流行的开源编码器 X265、VVEnC 等，在编码速度、编码质量和编码延时等多方面均有明显突破，联合内部团队参加了 MSU 2020 和 2021 连续两届世界视频编码器大赛，取得多个赛道第一（如表 2 和表 3 所示）。

MSU 2020 Main FullHD 1 fps YUV-PSNR 排名。

MSU 2021 Main FullHD 1 fps YUV-PSNR 排名。

具体而言，团队研发的 H.265 编码器 S265 在码率控制、快速算法、编码工具实现、工程加速几个方面进行了创新，实现了对 X265 编码器的超越，在 1fps 速度档位下 YUV-PSNR 指标领先 35%；团队自研的 H.266 编码器 S266 在 S265 编码器的基础上，进一步在符合 VVC 标准（VVC 是近年来颁布的、继 H.265/HEVC 之后的最新国际视频标准）的范畴下进行优化，实现了对比 H.265 开源软件 X265 very slow 档 50% 的编码效率提升（同等画质下，码率减少 50%）。

S265 编码器经过多年的产品化打磨，已全面应用于包括淘宝直播、淘宝信息流、淘宝逛逛在内的淘宝内容业务，并以较低的带宽和资源消耗实现高清画质编码。经过 S265 编码器压缩后，普通手机在 3G 网络也可顺滑观看 1080p 高画质，最新发布的手机亦可支持 4k 30FPS 超高清直播。S266 编码器也已在规划落地中，用户不久将可在淘宝 APP 中更流畅地观看高清的 VVC 视频。

在视频增强处理方面，团队自研的视频超分方法 TaoMC2 曾在 CVPR NTIRE 2022 视频超分与增强比赛的三个赛道获得两冠一亚的成绩（如表 4 所示）。

CVPR NTIRE 视频超分与增强比赛自 2020 年起已举办三届，在工业界和学术界均产生了重大的影响。CVPR NTIRE 2022 视频超分与增强比赛吸引了腾讯、字节、华为等知名科技企业，中科院、北大、港中文、ETH 等科研机构参赛，其中很多参赛者都有多年的参赛经验，竞争激烈。

CVPR NTIRE 2022 视频超分与增强比赛包含三个赛道，其中一个赛道的任务保持分辨率不变的视频增强，另外两个赛道叠加超分问题。

format-jpg

CVPR NTIRE 2022 视频超分与增强比赛排行榜。TaoMC2 在赛道 1 上超第二名 0.01dB、第三名 0.13dB，且在 15 个测试集中的 9 个视频上表现最佳，说明方法具有较好的泛化性。同时，TaoMC2 在赛道 2 上超出其他队伍 0.1dB 以上，在赛道 3 上仅次于第一名 0.01dB。

在实际业务应用方面，团队打造了视频增强方案 STaoVideo，服务于淘宝直播和短视频，分别帮助在直播生产端和短视频转码服务端提升画质。作为媒体处理系统 TMPS（Taobao Media Processing System）中最主要模块之一，STaoVideo 包含差异化的普惠高清和智美高清视频增强算子，通过传统算法和深度学习结合，在考虑计算成本的前提下，给用户最好的画质体验。在播放端，STaoVideo 的超分增强方案广泛用于诸如弱网等场景下的低分辨率视频传输、保障低传输带宽下用户播放的高清画质体验。

全面内容化战略下，淘宝内容技术的探索实践

音视频技术之外，淘宝也拥有全面的内容领域基层技术布局，包含内容理解、内容搜索和内容推荐等领域，覆盖计算机视觉、自然语言处理、多模态和 AIGC 等。这些都是淘宝内容化战略的核心技术，团队长期在这些方向有深度的打磨，沉淀出一定的技术领先性。

在淘宝全面内容化的战略背景下，短视频与直播等富媒体内容，在兴趣种草、内容消费、商品展示、视频买家秀等各个维度展现出巨大的优势，从而也在淘宝的流量场里扮演着愈发重要的角色。与商品不同，内容存在制作成本高、时效性强、生命周期短、用户行为稀疏等特点，这给内容生产与分发均带来了较大的挑战。

面对这些挑战，淘宝内容技术团队在内容理解与内容分发上深耕细作，在解决实际业务难题的同时，也将其中一些创新的工作总结沉淀，在 CVPR、AAAI 等国际顶级学术会议发表了多篇论文，包括在内容理解方面关于「商品定位」的工作。

团队设计了双分支跨模态定位架构，能够同时处理全局视觉以及语音文本两路信息，并进行充分交互来完成商品坐标的准确定位；同时，还首次提出了利用迁移学习的无监督域自适应商品定位。该方案已经在直播智能切片、短视频挂品等业务场景中上线使用，也在通用数据集与淘宝数据集都达到了业界最优水平，该工作《DATE: Domain Adaptive Product Seeker for E-commerce》发表在 CVPR 2023。

团队也针对开放词表检测问题展开了深入研究，针对以往方法在知识提取与迁移过程中的信息损失和低效性问题，提出了基于目标感知注意力掩码的知识提取模块（OAKE）和全局 - 区块 - 目标多层蒸馏金字塔结构（DP），在多个公开数据集上超过了 SOTA（State-Of-The-Art）方案，论文《Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection》发表在 CVPR 2023。

format-jpg

DATE 网络结构示意图。

在以上领域之外，内容技术团队还拥有前端、客户端、服务端和数据科学团队，负责面向亿级消费者提供服务的淘宝首页、淘宝信息流、淘宝逛逛等核心业务场域，通过规模化内容供给和高效率内容运营，提高消费的丰富度，辅助消费决策；面向千万级商家、品牌、机构、达人，提供内容创作工具、内容运营平台和内容商业化解决方案，打开流量新增量的更大空间，助力商家触达更广泛的消费人群。团队同时也支撑阿里巴巴电商板块各业务线的内容管理，提供高效、低成本、灵活的业务架构，协助各业务线实现内容创新和运营的转型升级。

内容化是当前淘宝的五大战役之一。淘宝内容业务包含多样化的真实场景，具备足够的技术挑战。淘宝内容化的大环境为技术同学提供了持续迭代技术、实时赋能业务和创造价值的舞台。依托当前技术储备，适当投入高水平的国际赛事，对技术同学来说是一个很好的面向业界前沿学习交流和练兵的机会。团队亦可籍此沉淀技术领先性，不断打磨技术，在这场内容化战役中更好地为用户体验保驾护航。