1

读芯术 · 2019年08月14日

欺诈、色情、黑客攻击……机器学习是如何进行内容审查的？

人工智能机器学习强化学习人脸识别

全文共2622字，预计学习时长6分钟

俗话说：牛X网友千千万，微博卖片占一半。

卖片广告一度辉煌，总能在各大热门微博抢占评论第一的宝座，成为网络上最风骚的牛皮癣。

无论是夜深人静时，还是光天化日下，他们用英文字母+数字+表情符+欲说还休的mm图，向全网用户传递“爱”的信息。

坊间有句江湖术语：没有被卖片的盯上过，怎么好意思说自己玩过微博。
)

原以为微博看片指日可待，没想到这几年卖片大军转战地下，讲究精准营销。只有运气好的时候，才能看见几个清新脱俗的小广告。

不过世风依旧日下，现在有的饭圈评论区比小毛片更辣眼睛。只混科技圈的小芯实在不能理解，两家粉丝掐架为何要互相问候祖宗，问候生殖器。网友扒黑料的水平和速度比Python爬数据还稳准狠。

虚拟网络已经成了网友的“泄粪场”，为利益各自站队，言辞无下限，总能拓宽人的知识面。

此外，为博流量的假新闻，也在网络平台恣意生长。明星八卦、造谣诈骗甚至拿最近的“利马奇”做文章，有意制造恐慌。

什么内容需要审核？

各大平台在流量红利中扮演着矛盾的角色，事件发酵引发流量效应有钱赚，而不当信息滋生网络毒瘤会被点名。随着社交空间相关的法律和社会环境越成熟，企业监管终于成了重中之重。

当然，企业不可能对数十亿的平台用户及平台发布的消息和照片逐一进行人工检查。他们通常利用机器学习系统自动解析上传到网站的内容，然后将被标记为违规的内容交给人工审核，人工团队再针内容判断是否将其上传至网站。

平台进行内容处理通常采用以下两种方法——在用户提交可能不当内容之前先行发出警告，或者事后删除内容或处罚用户。

一般平台的审核系统通常针对以下内容：

欺凌内容

第一类需要审核的内容涉及在线骚扰或欺凌。这包括各种行为，例如网络攻击、网络欺凌、仇恨言论和人肉。虽然其中一些行为难以界定，但平台仍在努力自动检测这些内容。

例如：Facebook和Instagram等国外社交巨头，在经历几起因网络欺凌导致用户自残和自杀的事件后，平台整改，增加了举报选项并加强了进一步监管。综合采用自然语言处理，图像处理和社交网络分析方法，利用机器自动检测欺凌内容，防止惨剧发生。

https://www.metroparent.com/d...

虚假/误导内容

社交网络是虚假信息传播的加速器。这类内容一般以新闻文章的形式出现，通常被称为“假新闻”。

假新闻检测难度就上了一个level，相较色情信息，假新闻的关键词不够典型。需要结合人类的日常经验和真实信息进行判断。

当前通常的处理手段是，结合大的通用/常识知识库、自然语言处理、以及通过社交网络分析和内容的风格特征，综合分析各类基于网络信誉的因素。

https://www.independent.ie/wo...

裸露/明确的性内容

裸露和色情内容几乎是每个平台最头痛的地方。这类有色信息通常以图片的形式出现。因此通过图像分类处理就可以轻松检测。

自从微博将这项技术提上议程，原本春光无限的微博就变成“灰蒙蒙一片真干净”。

在国外，民风还是相当开放。不同的平台的政策不同，例如，Instagram完全禁止这类内容出现，而Reddit则允许这类内容的上传。于是小芯在逛Reddit这个美版的天涯+贴吧时，总会有福（刺）利（眼）的内容引人注目。

诈骗/网络钓鱼/黑客攻击

最后一类内容涉及诈骗、网络钓鱼或非法入侵平台用户的计算机系统。此类内容常常试图让用户离开当前平台转向其他网站。这个外部网站通常会诱导用户上传个人信息或汇款给陌生人。

外部网站通过模仿原始网站上的URL（常通过 homoglyph攻击），或向用户承诺更优惠的购买价格来达到这一目的。通常通过自然语言处理、已知网络钓鱼链接的集合，以及社交网络分析和帐户等网络信誉因素来检测该类内容。

https://www.pcmag.com/article...

审核如何进行？

自动化内容审核通常分为两个阶段。

自动标记

首先，从用户入手，内容当然是由用户创建和提交的。

如果已知发布内容的用户是规则破坏者，或者内容非常明显地违反基本审核规则，那么用户可能被暗中禁言，发布的内容也可能会被自动隐藏，而发布者本人对此一无所知。

或者，分析这类内容的特征，将结果输入到内容审核机器学习模型中。部分与内容本身无关的特征（例如用户特征）可能已经经过设定好的批处理系统处理，而如果这些特征（例如与文本或图像相关的特征）直接来源于提交的内容，则可以在运行中处理。此外，如果内容在提交后由其他用户手动标记，还可以对其进行再处理。

基于这些特征，机器学习模型可以输出一个概率分数。如果此分数高于某个阈值，则怀疑该内容违反了平台规则，将其标记后提交人工二次审核。企业需要尽可能降低开支，因此通常会以严格的数学方法来确定此阈值，以便优化审核标准，平衡违规成本与人工标记成本。

人工审核

受到标记的内容会发送给人工审核员以对其进行二次人工检查。这些人工审核员通常会接受简单的培训，快速识别违规内容。

通常每条内容都将由5名以下的人员负责，以消除因标记错误或理解差异造成的分歧。（还是相当公平公正的）。

被打上最终标签后，违规内容就会得到处理。比如删除内容，或者处罚及删除用户账号。

你以为这就完了吗？用户的不良记录将会永久保存。不良内容将与对应的标签一起存储，形成形形色色的数据集，用以内容标记机器学习模型的迭代。整个过程不会浪费任何数据，并且模型能够不断地重新训练，以适应用户提交内容的变化模式。

于是，互联网界的魑魅魍魉，迷惑行为大赏都将被载入“数据史册“。

值得注意的是，由于这群内容审核员每天查看的内容都是奇葩中的极品，所以他们的工作状况十分令人担忧。

比如：针对色情内容的审核人员有一个微妙的称呼——“鉴黄师”，可能和黄药师差不多水准。他们接受媒体采访时曾直言：每天阅片无数，看到人恶心想吐……

图源：暴走大视频

摸着良心：这是真辛苦。

留言点赞关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

（添加小编微信：dxsxbb，加入读者圈，一起讨论最新鲜的人工智能科技哦～）

1 阅读 2.5k

推荐阅读

入门人工智能产品化机器学习的一些思考 Github上的CV（计算机视觉）、AI（人工智能）开发资源库算法工程师眼中的AI岗位当AI开始“踢脏球”，你还敢信任强化学习吗？为什么学人工智能首推Python 需要学习哪些知识

人工智能干货

关注数

11

内容数

5

人工智能干货，看这个专栏够了!

关注专栏专栏主页

目录

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息