平时,我们提到AI可能想到是深度学习、智能机器人、语音交互、视觉识别等。但在某些特殊领域,AI将发挥与众不同的价值,比如对于内容审核来说,AI可能就代表了正义。

21世纪互联网技术在全球范围内开始被普及,网民人数直线上升。2019年全球大约有51.1亿手机用户,网民人数大约为44亿。CNNIC《2019年第44次中国互联网络发展状况统计报告》数据显示,我国网民规模达8.54亿,较2018年底增长2598万,互联网普及率达61.2%,较2018年底提升1.6个百分点。网民基数不断增长,随之而来的人们更加关注用户隐私、数据安全以及互联网上各种“黄暴”信息所带来的冲击,尤其是对青少年或儿童带来的糟糕影响。

互联网的伟大之处就是打破了空间的限制让信息可以快速传输。打破地域的隔离之后,互联网当中充斥着各种各样信息,这些信息可能是图文或者视频。但是,“good or bad” 成为了大家最头疼的问题。

图片来源:网络

轻度的可能如同 deepfake 伪造视频,用“换脸”技术带给人们休闲欢乐,但不乏恶意者将此技术用作人身攻击,视频处理技术不断升级,视频造假技术也随之更新换代;重度的可能是更加直接暴力的内容,有网友举例说,曾看到过“ISIS杀戮人质的视频、非洲人民凶残、美国天黑时散发出恐怖的色彩、日本自杀深林中令人作呕的尸体……”观看此类视频会引起严重不适,甚至是抑郁症。这些负面、黄色、暴力的信息其实离我们很近。

《思科可视化网络指数》数据显示,目前,视频内容已经占据了互联网数据总量的80%,并且有越来越多的APP开始加载视频功能。

图片来源:网络

单就Youtube来说,全球大约有5000万创作者,每分钟上传的视频时常高达500小时,一年运营下来大约会生产出2.628亿小时的视频内容。如果用1万人来人工浏览审核这些视频,大概需要3年时间。虽然听起来很夸张,但是对于全网视频内容来说一点也不为过。

谷歌拥有一支100多人的内容审核团队(不是全部),有新闻媒体报道了该团队成员因为审核大量暴力内容而导致了不同程度的心里创伤,团队里的每一个人平均每天要观看5个小时以上的暴力色情内容。而Youtube的审核团队管理者曾提到过,团队中最“致郁”的工作岗位是视频审核。

2018年直播行业非常火爆,但是因涉黄被被查、关闭的平台也不在少数,在网监和公安等相关部门的联合治理下有了直播环境有了很大改善。但问题犹在,视频内容还是当下内容检测领域难以根除的难点。

在此背景下,极链科技针对目前行业面临的主要问题,响应政策号召,结合人工智能技术,打造全栈式智能内容安全审核引擎——神眼系统,用AI技术帮助平台方减轻内容审核压力、降低内容审核成本,为客户提供一站式的智能内容安全解决方案。

AI内容检测也逐渐成为了计算机视觉领域的重要研究课题之一,从2015年开始,文娱传媒领域的数据竞赛赛题呈现逐年递增的态势,行为预测、营销内容创作、舆情分析、内容检测成为了该领域最为常见的赛题场景。

利用数据竞赛探索数字化创新与前沿技术的落地应用方向正在成 为数据科学生态必不可缺的一环。 自2014年开始全球范围内由各行业企业、顶级学术会议和第三方数据科学平台发起的各类数据竞赛总量已突破 1000 余场。 行业从业者一直试图从更加全面、更加深入的理解、解决技术应用中遇到的难题。

对于国内市场而言,内容检测的高压地带通常是一些UGC网站平台。通常是基于内容检测,对用户上传行为进行有效管理,敏感黄暴信息一直被平台方所诟病。抖音作为国内最大的UGC类内容平台之一,母公司字节跳动运营着超过10款流媒体平台,内容审核压力相对较大。头条方面自研开发了“灵犬反低俗助手”,是通过内外部协同共同参与的检测形式,用户可以通过输入一段文字或者链接,来检测内容的健康指数。

图片来源:网络

但是AI内容检测仍面临着众多困境,由于训练样本必然带有的局限性,漏判、误判的情况时有发生,比如“裸露”不一定全部代表黄色信息,也有可能是艺术表达。Facebook 曾经因为“裸露”,误删了一张著名的越战新闻照片,内容是一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑,事件发生后引起了美国新闻界的巨大争议。所以人工辅助仍是不可或缺的,AI能做的还只是提高内容审核人员的效率协助判断。

目前市场上常用的检测产品大致可以区分出两种检测逻辑,第一种是AI负责对视频进行分类,之后实时监控观看量,对其中观看量较高的内容进行人工复检;第二种是AI对视频标记“good or bad”,“bad”内容会被当作疑似信息来处理,进行二次人工复检。

虽然现在AI还不能取代人工审核,但是比起传统的人工抽查、筛检,工作效率仍然得到了大幅度提升。另外对于内容平台来说黄暴内容基本等于“红线”,需要平台方和用户共同抵制。AI内容检测还有很长的路要走,毕竟它还不能拥有人的伦理观念或是健全的文化意识理解。