编者按:MeshCloud通过与GCP合作为中国出海企业提供强大的全球基础架构。LiveVideoStack邀请到了MeshCloud的陈满老师,为我们介绍如何借助谷歌云在视频智能检测识别方面的技术与能力,实现海外音视频业务的快速与高质量部署。
文/陈满
整理/LiveVideoStack
大家好,我是来自MeshCloud的陈满,今天我分享的主题是使用Google Cloud集成API实现视频智能检测识别。
首先介绍一下脉时云。脉时云主要从事谷歌云的出海业务,协助出海用户做视频和游戏,为用户提供解决方案和日常的技术支持,提供专业的咨询服务、迁移服务和运维服务。同时,我们也根据客户需求自研了产品账单系统,帮助客户使用GCP。
01 Cloud Video Intelligence API介绍
首先,介绍Cloud Video Intelligence API。
在GCP上不需要过多的配置,可以通过SDK,比如Python或Go,来调用API,实现对视频对象、地理位置和动作捕获的分析。然后,可以实现帧级别、镜头级别和视频级别的视频元数据采集,其中,帧级别可以达到秒级。同时,我们也支持流式视频和基于对象的事件触发,这意味着我们可以基于事件的触发方式根据云原生的服务构建出流式的数据分析。此外,我们可以基于内容实现精彩片段、标签功能等,打造优质客户体验。
这个API可以实现的功能如图所示。首先,它可以识别镜头切换,当镜头从A对象转向B对象时,其可以识别出来。然后,可以根据内容进行标签化处理、实现目标跟踪和Logo识别,目前可以识别两万种以上的Logo。同时,还可以做到视频文字内容识别和音频转录,达到字幕识别的效果。此外,还可以做到人脸检测与识别和人物识别,在日常生活中,这主要用于交通识别和小区出入的牌照识别。最后,还可以做到露骨内容检测。
接下来具体介绍每个功能,首先是镜头切换识别。基于镜头切换识别功能,可以对整个视频、片段视频或帧级别的视频进行内容摘要方面的分析。获得摘要后,可以基于摘要生成缩略图,或基于摘要判断视频内容情况。
其次,可以基于视频获取标签。图中展示的demo分析了动物世界中的场景,可以看到,获取的标签有动物世界、树、叶子、动物等。同时,可以对特定的片段进行识别和分析。此外,可以选择不同的模式,比如整段视频或帧级别的视频。
接下来,介绍目标跟踪功能。图中的右下角有一个蚂蚱,可以使用目标跟踪功能识别该对象,然后打开对应的时间段进行标记,通过标签关联和识别框对视频进行识别。
Logo识别功能可以识别出常见的Logo,比如Google Maps。同时,可以基于识别的数据信息实现视频的标签化和数据的收集。
如图所示,可以识别视频中出现的文字。完成文本识别后,可以进行标签化处理。同时,可以进行关联操作,实现真实的影像识别。
音频转录功能基于谷歌的API,可以自动识别常见的语言,并将其转录为视频文字,基于此完成字幕要求。
露骨内容识别功能可以基于API对视频的前十帧进行分析,判断视频是否包含敏感内容。同时,该功能也可对帧、视频流和视频片段进行分析,判断其是否包含敏感信息。
02 Video Intelligence API Beta 功能
接下来,介绍目前API预先发布的一些功能。
第一个功能是流式传输。首先,将预存的文件组合成一定大小的文件,以视频流的方式传给API,API会对其进行分析和标签化处理,还会检测镜头变化、创建元数据信息和跟踪对象。同时,可以基于另一个API实现动态内容的跟踪与识别,比如在体育赛事中,识别运动员的进球动作等。
第二个功能是直播,可以对常见的直播的视频流,比如RTMP,进行实时流式分析和标签化检测。同时,将内容放在对象存储或谷歌的BigQuery里,实现元数据的管理,并基于事件的方式实现视频内容的分析和识别。最后,根据标签和内容向客户推荐相关视频。
以上就是我今天分享的内容,感谢大家的倾听。