一直以来,由于相关法律法规的规定,视频中不能含有血腥暴力画面,很多视频up主在上传血腥暴力视频前,会将视频中涉及到血液的颜色改为蓝青紫等颜色。还有一些没有做改色的up主,在人工审核的失误下,也会侥幸过审。甚至一些视频因为内容的特殊性,比如游戏录屏、或者衣着时尚、遮蔽较少,就会进入审核,需要系统来检测是否违规视频的发布机制。再比如近年来大火的快手、抖音等短视频app,作为当下年轻人最喜爱的互动交流媒体,每日的短视频生产成千上万,如何能够用AI技术高精准的审核这些视频,也成为了各大AI企业值得思考的问题。

人工智能和深度学习下的识别和推理

传统意义上的深度学习算法以有监督的方式进行训练,以识别特定类别的事物。在一个典型的任务中,可能会训练DNN以可视化的方式识别一定数量的类。例如一张只有苹果和香蕉的图片,深度学习算法在获得大量数据和质量的数据时,非常擅长进行精确、低错误率和可信的分类。当第三个未知对象出现时,DNN识别就会出现问题。如果引入了训练集中不存在的未知对象,例如橙色,DNN 网络将被迫猜测,并将橙色分类为捕获未知对象的最接近类别一个苹果。基本上用苹果、香蕉训练的DNN的世界完全由苹果和香蕉组成,机器想不到水果篮里还有其他的水果。

在训练过程中,如果 DNN 能够将项目分类为“苹果”,“香蕉”或“什么都没有”,算法的开发人员可以确定是否还有尚未有效学习识别的类别。也就是如果水果图片继续反馈“零”,那么开发人员可能需要添加另一类“水果”来进行识别,例如橘子。

以AI创业公司Neurala为例,在2017年宣布在深度学习软件方面取得重大进展,其Lifelong DNN软件能够能够在边缘学习增量对象。在此之前,如果一个AI系统学会了一定数量的对象,并且需要再学习一次,那么它必须针对所有对象再训练一次。这种传统方法需要利用强大的服务器,通常是云上的服务器。

Neurala的Lifelong DNN既能在运行中学习,也能在边缘学习的能力意味着 Neurala 的新方法可以直接在设备上学习,从而不会有云上学习的所有缺点。此外,它消除了网络延迟,提高了实时性能,并在需要时确保隐私。最重要的是,它将促进一系列无云应用的开发。对此吴恩达也评价了从云到“边缘”转化的技术,认为这会加速消费级IoT,带来新的赢家。

Lifelong DNN 的机制和人类的学习方式类似:我们在潜意识中不断检查我们的预测是否符合现实世界。例如,如果有人跟你开玩笑调整了你办公椅的高度,你马上就能意识到。那是因为随着时间的推移,你学习到了办公椅高度的“模型”,一旦模型有变,你会立即意识到异常。

人类不断检查我们的分类是否符合实际情况。如果没有,我们的大脑就会注意到并发出警报。对人来来说,我们不仅可以认识苹果、香蕉和苹果,还可以推理“我还以为是苹果,但实际上不是。”

商业化视频审核下的多维度识别

当前,视频审核多用于在商业化视频中,而商业化视频的数据特点,对算法系统的处理速度、效率和准确率提出了较高的要求。商业化视频算法的总体框架分为五层:1、视频输入层进行视频源的管理;2、视频处理层进行镜头分割、采样、增强和去噪等工作;3、内容提取层主要分析视频中内容、语义等信息,进行目标检测、跟踪和识别等来检测目标在视频中的时间、空间、位置等维度;4、语义融合层进行目标轨迹融合、识别结果融合、特征表示融合、高层语义融合等;5、在数据输出层,进行结构化数据管理,方便后续数据检索与应用。

视频内容识别维度多样,包括场景、物体、人脸、地标、Logo、情绪、动作、声音等。不同维度的算法结构有所区别。人脸识别算法结构为:输入视频后进行镜头分割,在进行人脸检测、跟踪、人脸对齐,根据质量评估过滤,进行特征提取和特征比对识别,最后进行识别结果融合,输入最终识别结果。

在场景识别算法结构中,首先对输入视频进行镜头分割采样,有所不同的是只需进行时间间隔分割的采样,再对视频进行场景类别的初分类,预处理之后进入卷积神经网合阶段,卷积神经网络通过对不同的数据集进行预训练,得到不同的特征和描述,将这些特征进行融合、降维处理得到特征表示后,对不同场景如高频场景、次级场景和新增场景,进行分类处理,最终对识别结果进行融合。

在物体、Logo识别算法结构中,有所不同的是需要多尺度提取特征,跟踪识别物体轨迹,并关注物体类别,对结果进行优化。

在地标识别算法结构中,分为三步,第一,通过基础网络(VGG,ResNet等)获得特征图(一般为最后一层卷积或池化层);第二,从特征图中提取特征(例如R-Mac,SPoC,CroW,GeM等)并用ROI Pooling,PCA 白化,L2-归一化等方式处理,一般最终维度为256,512,1024,或2048;用kNN,MR,DBA,QE,Diffusion等方式将得到的特征对数据库内的特征进行后处理获得最终特征;训练模型一般损失函数采用contrastive loss或triplet loss,最终比对一般采用余弦或欧式距离。

以国内的AI初创企业极链科技Video++为例,其推出的神眼系统通过人工智能技术,打造了一个全栈式智能内容安全审核引擎。该系统能对视频、图片、文本的内容进行审核,查找出里面的政治敏感内容、暴力恐怖内容以及色情内容等等不合规的部分。作为一个检测系统,神眼有着独特的AI算法,可以逐帧检测,跟踪轨迹流。并且在输出阶段,有着三次审核流程,可以确保结果的准确性。

小结:如今人工智能正逐渐渗透到各行各业中,针对视频内容抄袭和重复、不良视频内容编辑后二次传播的问题,越来越多的企业作出了自己的解决办法。从长期的视角来看,AI机器审核要更为重要。现在的审核多为先AI机审,有问题的再进行人工审,AI机审会审核掉大多数的内容,并且随着算法的不断升级和对人工审核的神经学习,AI机审会变的越来越智能。计算机的处理速度和知识储备也都远在审核人员之上,即使是当下的视角,AI机器审核也拥有着独特的地位,或许在视频发展迅速的未来,AI内容安全审核会成为互联网下一个重要风口。