ronghuaiyang · 2020年05月18日

Netflix:使用A/B测试来找到最佳的插图

作者:Netflix Technology Blog

编译:ronghuaiyang

首发:AI公园公众号

导读

上回的文章中提到了使用A/B测试来找到最佳插图的工作,今天找到了这篇文章给大家分享一下,不得不感叹一下,Netflix对A/B测试的使用已经不仅仅是评估新算法的表现那么简单了。

在 Netflix,我们一直在寻找方法,帮助 8150 万用户发现他们会喜欢的精彩内容。其中很大一部分是创造一种直观、有趣、有意义的用户体验,帮助用户尽可能快地找到并欣赏 Netflix 上的内容。

我的创意服务的同事(Nick Nelson)深入的研究了我们的图像选择工作中的关键点 —— 关注我们如何学习,如何改善服务和如何不断开发新技术,让 Netflix 更好的为我们的会员服务。

90秒以内

总的来说,我们知道,如果你在 90 秒内没有抓住用户的注意力,用户很可能会失去兴趣,转向其他活动。这种失败的会话有时可能是因为我们没有显示正确的内容,或者因为我们确实显示了正确的内容,但没有提供足够的证据说明为什么我们的会员应该观看它。我们如何才能让我们的成员更容易地评估他们是否对某个内容感兴趣?

俗话说,一图胜千言。神经科学家发现,人类大脑处理图像的时间仅为 13 毫秒,与处理视觉信息相比,处理文本的时间要长得多。我们是否能够通过改善我们在 Netflix 体验中显示的图像来改善体验?

这篇博文揭示了一系列 Netflix 所做的开创性的 A/B 测试 ,这导致了用户参与度的提高。我们的目标如下:

  1. 识别能够让用户更快找到他们想看的内容的插图。
  2. 确保我们的会员对每个内容都有更多的关注,并在总体上看得更多。
  3. 确保我们在评估多个图像时不会错误地表示内容。

我们运行的一系列测试与产品的其他领域没有什么不同 —— 我们不断地测试我们的方法,使用一组日益复杂的假设,使用我们一路上获得的见解,以获得更好的会员体验。

背景和动机

image.png

当一个会员来到上面的主页时,该成员会浏览每个内容的几个细节,包括显示的插图(例如在“Popular on Netflix”行中突出显示的“Narcos”插图)、内容(“Narcos”)、电影评级(TV-MA)、概要、明星评级等。通过各种各样的研究,我们发现我们的会员首先看艺插图,然后决定是否看其他的细节。知道了这一点,我们问自己是否可以提高第一眼的点击率?为了回答这个问题,我们寻求了我们的创意服务团队的支持,他们致力于创造令人信服的插图,用一张图片来传达整个内容的情感,同时又忠实于内容的主题精神。创意服务团队与我们的工作室合作伙伴一起工作,有时与我们的内部设计团队一起创建多个不一样的插图。

image.png

image.png

在其他场景下使用的插图的例子,这些例子本身并不适用于Netflix服务。

从历史上看,在 Netflix 和整个行业,这基本上是一个未开发的领域。Netflix 将从我们的工作室合作伙伴那里获得内容图片,这些图片最初是为了各种各样的目的而创建的。其中一些是为路边广告牌设计的,它们不会与其他内容放在一起。其他图片来自于 DVD 封面艺术,它在多种形式因素(电视、手机等)的网格布局中表现不佳。了解到这一点,我们着手开发一个数据驱动的框架,通过这个框架,我们可以为每个视频找到最好的插图,无论是在 Netflix 体验的背景下,还是以提高整体参与度为目标 —— 而不仅仅是将参与从一个内容转移到另一个内容。

通过测试来生产更好产品的方法

总的来说,Netflix 的 A/B 测试理念是逐步构建,使用数据来驱动决策,并快速失败。当我们有一个复杂的测试领域,如图像选择,我们试图证明逐步增加的严谨和复杂性的假设。

通过测试来生产更好产品

我们进行的最早的测试之一是关于单个内容“The Short Game”——一个关于几个小学生在高尔夫球比赛中互相竞争的鼓舞人心的故事。如果你看到这个内容的默认插图,你可能不会很容易意识到它是关于孩子的,然后跳过它。我们可以创造一些插图的变体来增加内容的受众吗?

image.png
为了回答这个问题,我们构建了一个非常简单的 A/B 测试,其中每个测试单元中的成员将获得该标题的不同图像。我们度量了每个变化的参与度 —— 点击率,累计播放时间,短时间播放的比例,内容浏览的比例(你看完一部电影或电视剧的程度),等等。当然,我们看到我们可以通过使用不同的插图来扩大观众和增加参与度。

持怀疑态度的人可能会说,我们可能只是把时间从其他内容移到了这个内容上。然而,这是一个早期的信号,会员对插图的变化是敏感的。这也是一个信号,我们有更好的方法来帮助我们的会员找到他们在 Netflix 体验中寻找的内容的类型。知道了这一点,我们开始了一个增量的更大的测试,看看我们是否能在更大的内容集合上建立类似的积极影响。

实现 2 (多个 cell 的 explore-exploit 测试)

接下来的实验是在不同的受欢迎程度范围内使用更大的内容集合来做的 —— 包括畅销内容和小众内容。这个测试的假设是,我们可以通过在每个内容中选择最佳的插图,来提高大量的会员分配的累计流媒体时间。

本试验为两部分 explore-exploit 测试。“探索”测试度量了一组插图集中的每个候选插图的参与度。“exploit”测试为未来的用户提供了最吸引人的插图(来自 explore 测试),并看看我们是否能改善流媒体的总时长。

image.png

使用 explore 的会员群体,我们度量了每个内容的所有插图变体的 take rate(点击率)。我们通过将播放次数(除非是非常短的播放)除以设备上的播放次数来计算播放率。对于不同的组,我们有几种接受率的度量选择:

  • 我们应该包括那些看了几分钟内容的会员,还是只包括那些看了完整片段的成员,还是只包括那些看完整内容的成员?
  • 我们应在国家、区域或全球人口层面统计 take rate 吗?

使用离线建模,我们使用上述因素的组合,将选择范围缩小到 3 个不同的 take rate 指标。下面是两个测试如何连接的图示摘要。

image.png

这个测试的结果是明确的 —— 我们显著提高了内容的查看份额,测试了不同版本的插图,我们也能够提高流媒体的总小时数。这证明了我们并不是简单的流量交换。向会员展示更多相关的插图促使他们观看更多他们之前没有发现的东西。我们还验证了我们并没有对次要指标产生负面的影响,比如短时间播放、内容浏览率等。我们在几个月的时间里做了额外的纵向 A/B 测试,以确保简单地周期性地改变插图并不像找到一个表现更好的插图那么好,并且证明了收益不仅仅来自于改变插图。

在我们进行测试的过程中,遇到了一些工程方面的挑战。我们必须在两个主要领域进行投资 —— 跨设备、跨时间、跨尺度地收集一致的曝光数据。

  1. 客户端曝光跟踪:度量曝光率的关键因素之一是了解内容图像进入设备视窗的频率(曝光)。这意味着每一个主要的设备平台都需要跟踪每一个进入视窗的图像,当一个会员停下来考虑它的时候,哪怕只有几分之一秒。这些微事件中的每一个都被压缩并作为会员会话数据的一部分定期发送。每个设备都应该持续地度量用户的曝光,即使 iPad 上的滚动条与电视上的导航条有很大的不同。我们每天收集数十亿次这样的曝光,在网络的每个阶段都很小的损失率 —— 具有小存储空间的设备可能会在成功发送事件就删掉了,网络的丢包等。
  2. 每个插图的稳定标识符:为每个插图创建稳定的惟一标识符是一个非常具有挑战性的领域。我们的创意服务团队不断地对插图做出改变 —— 改变内容的处理方式,润色以提高质量,寻找更高分辨率的插图,等等。

![img](Selecting the best artwork for videos through AB testing.assets/0_TDgJF7fdWr00x7\_I_.png)

上面的图显示了插图的结构 —— 它包含了背景图像、我们支持的大多数语言的本地化标题处理、一个可选的“新一集”的标志,以及我们的 Netflix 徽标。

image.png

image.png

这两个图像有不同的高宽比和局部标题处理,但有相同的血统ID。

因此,我们创建了一个系统,该系统自动对具有不同纵横比、裁剪、修饰、本地化标题处理但具有相同背景图像的插图进行分组。共享相同背景图像的图像与相同的“lineage ID”相关联。

即使创意团队更改了标题的处理和裁剪,我们仍然使用插图的 lineage ID 记录数据。我们的算法可以组合来自全局会员库的数据,即使它们的首选语言环境不同。这改善了我们的数据,尤其是在较小的国家和不太常用的语言上。

实验 3 (单个 cell 级别的探索测试)

虽然早期的实验是成功的,但还有更快、更公平的方法来学习插图的表现。我们希望在最短的时间内随机选择最少的会员,然后我们才能确定每个内容的最佳插图。

image.png

实验 2 预先将每个内容分配到几个大小相同的 cell 中 —— 每个插图变体一个 cell。我们可能会浪费曝光机会,因为每一幅图像,包括已知的表现不佳的图像,都会持续许多天获得曝光。此外,基于分配的大小,比如 200 万名会员,我们可以准确地为流行的内容检测图像的性能,由于样本量的原因,小众的内容不能准确的衡量。如果我们分配更多的会员,比如 2000 万会员,那么我们将准确地学习小众内容的插图表现,但我们将过度曝光具有糟糕的插图表现的流行内容。

实验 2 没有处理需要评估的图像数量的动态变化。也就是说,我们不可能为一个热门内容评估 10 张图片,而为另一个内容评估 2 张。

我们试图在新的“内容级探索测试”的设计中解决所有这些限制。在这个新的实验中,所有的探索群体会员都在一个 cell 中。在将内容显示给成员之前,我们动态地为每个(会员,内容)对分配一个插图变体。本质上,我们为每个内容执行 A/B 测试,并为每个插图提供 cell。由于分配发生在内容级别,我们现在能够容纳每个内容不同数量的插图变体。

这个新的测试设计允许我们比实验 2 更快地得到结果,因为前 N 个成员,比如 100 万,他们看到一个内容,可以用来评估其图像变体的性能。我们继续停留在探索阶段,直到我们确定一个赢家 —— 通常是几天。在那之后,我们利用获胜的插图,所有会员都会看到获胜的插图。

下面是我们用来跟踪相关插图表现的工具的一些屏幕截图。

Dragons: Race to the Edge: 下面这两张有标记的图片明显优于其他所有图片。

image.png

Unbreakable Kimmy Schmidt

image.png

总结

=====

在这一系列测试的过程中,我们在获胜的图片中发现了许多有趣的趋势。那些有丰富的面部表情可以传达内容的基调的图片的效果特别好。我们的框架需要考虑这样一个事实:获胜的图片在世界各地可能会有很大的不同。带有内容中可识别的或两极分化的人物的插图往往很好。选择最好的插图在物质方面改善了 Netflix 的产品体验。我们能够帮助我们的会员更快地找到和享受内容。

当谈到改善插图的选择,我们还远远没有完成。我们有几个维度可以继续实验。我们是否可以超越插图并跨所有资产类型(插图、移动广告牌、预告片、蒙太奇等)进行优化,并为单个画布上的内容选择最佳资产类型?

—END—

英文原文:https://netflixtechblog.com/s...

推荐阅读


关注图像处理,自然语言处理,机器学习等人工智能领域,请点击关注AI公园专栏
欢迎关注微信公众号
AI公园 公众号二维码.jfif
推荐阅读
关注数
8244
内容数
210
关注图像处理,NLP,机器学习等人工智能领域
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息