“科学家的成就是全人类的财产,而科学是最无私的领域”——高尔基
据世卫组织统计,全球至少22亿人视力受损或失明,我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,并且每年新增的盲人数量高达45万。
科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类。怎样帮助盲人感知这个世界?AI助盲已经在路上了。在业界,浪潮信息等企业正通过多模态AI领域的技术探索,攀登着一个又一个高峰,以期让盲人“看见”真实世界。
多模态交互,为盲人“看”世界带来可能
通过多模态的交互可提升AI的感知、理解与交互能力,为AI理解并帮助残障人士带来了更多可能。多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。
从技术角度来看,单模态智能发展到尽头,由于文本、语音、图像各类任务彼此割裂,会受到一些限制,但多模态的AI可以解决不同模态感知融合的问题,真正实现让AI无处不在。
我们每个人获取外界信息的过程中,视觉信息的占比高达70%~80%,视觉信息是最为主要的模态,如何用其他的模态信息去代替视觉模态,弥补盲人缺失的视觉信号正是一个多模态的问题。
目前,盲人视觉问答VizWiz-VQA是学术界研究AI助盲的起点和核心研究方向之一,这项研究由卡内基梅隆大学等机构的学者们共同发起,采用VizWiz真实盲人提供的视觉数据集训练AI模型,然后由AI对盲人提供的随机图片文本对给出求助答案。
盲人视觉问答数据
虽然目前多模态算法的迅猛发展,为AI助盲提供了新的技术解决思路,但对于盲人视觉问答来说,其精度的提升依然存在各种挑战。
首先,由于盲人所拍摄图片模糊、有效信息少,问题通常也会更主观、模糊,理解盲人的诉求并给出答案面临挑性。团队提出了双流多模态锚点对齐模型,将视觉目标检测的关键实体及属性作为连结图片及问题的锚点,实现多模态语义增强。
其次,针对盲人拍摄图片难以保证正确方向的问题,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的理解问题。
最后,盲人拍摄的画面通常是模糊、不完整的,这导致一般算法难以判断目标物体的种类及用途,需要模型需具备更充分的常识能力,推理用户真实意图。为此,团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略。推理时,将交叉训练后的视觉定位和图文匹配模型用于推理定位答案区域;同时基于光学字符识别算法确定区域字符,并将输出文本传送到文本编码器,最终通过图文匹配模型的文本解码器得到盲人求助的答案。
目前,浪潮信息前沿研究团队在盲人视觉问答数据集VizWiz-VQA上算法精度已领先人类表现9.5个百分点,并在AI助盲领域斩获世界冠军两项、亚军两项。
盲人所面临的挑战更加复杂
我们正常人如果被遮蔽双眼,即使配备了众多先进的终端智能设备,那也将失去绝大部分的自理能力。盲人虽然生活习惯的原因,在听觉、触觉等其他感知方面优于常人,但在获取、识别信息方面依然与常人有着明显差距。
举例而言,盲人去超市购物,由于很多商品外包装采用类似设计,盲人无法通过触感来进行区分,可能会拿起一听可乐汽水询问“饮料中酒精的含量”,或误将酸奶当成牛奶,面临着大量类似这样的基础识别问题。这些问题通常被称为:噪声干扰。
语言及环境的噪声干扰会直接导致传统的AI模型失效,让识别与分析走向错误的方向。
可见,AI要具有更高的理解能力,辨别盲人的真实需求。
怎么样,是不是听着就感觉很难。
也正是因为一些盲人这类群体的天然有噪特征,让AI助盲成为一个非常复杂的新课题,也是浪潮信息前沿研究团队需要迎接的重要挑战。
在问答交互噪声定位领域,浪潮信息多模态算法研究团队首次提出视觉定位文本去噪推理任务FREC,并构建了首个可解释去噪视觉定位模型FCTR,在噪声文本描述条件下,精度较传统模型可提升11个百分点。这一研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
FCTR结构图
AI助盲本身就是很难的一项课题,其实施过程中会涉及到很多领域,包括额外的知识库、理解能力及各种语言噪声等。通过对这些复杂挑战的研究,能够极大推动AI学术的发展。例如研究语言噪声这一个问题,就可以通过其为切入点去探索真实世界,从而迈向更深层次的理解。
此外,据研究机构数据显示,很多助盲领域的应用,最终收获最大的用户群体并不一定是盲人,这些应用直观上对盲人最有帮助,面对普通人群实际上还可以扩展出更多功能,从而加深对该领域的探索,对产业与学术界都有着巨大的推动力。
在某些方面,AI已经超越人类
AI助盲是一套涉及到方方面面的复杂应用,在某些方面AI的能力已经超越了人类。例如内容识别,受视力限制盲人拍摄的图像往往都是不清晰且局部的,经常会出现拍摄了一本书的半个封面或一小部分内容,如果我们普通人没有看过这本书,那将很难识别出正确的信息内容。
相比之下AI有大量的数据积累,并且具备很强的知识记忆能力,它可以通过不完整的局部信息来识别出具体书名,因为其在庞大的数据库中“看过”这本书。对于类似这样的问题AI解决能力要明显优于人类。
另外,在交互方面AI也具备超人的能力,当前多模态ChatGPT所展现出来的就是:有记忆能力、知识背景、沟通能力非常强,准确率也比较高的人机对话模型。但此类模型还需要进一步与盲人进行交互,才能达到视觉问答的效果。
通过将以上两种技术结合起来,实现一个有记忆能力、具备背景知识储备量的人机交互模型,就可以辅助盲人进行长时间、高精度的对话了。
据了解,浪潮多模态算法研发团队通过建立逻辑链在庞大的知识库中进行检索,对图像和文本的已有内容实现扩展。目前,该团队构建了AI-VQA的开源数据集,包含超过14.4万条大型事件知识库、全人工标注1.9万条交互行为认知推理问题,以及关键对象、支撑事实和推理路径等可解释性标注。
同时,团队提出的首个智能体交互行为理解算法模型ARE(encoder- decoder model for alternative reason and explanation)首次端到端实现交互行为定位和交互行为影响推理,基于多模态图像文本融合技术与知识图谱检索算法,实现了具备长因果链推理能力的视觉问答模型。
ARE结构图
未来,还可以将此类技术引入到AI反诈、AI医学诊疗、灾情预警等领域,同样具有很高的应用价值。
浪潮信息全面布局前沿领域
相信有些朋友可能会产生疑惑:作为一家IT硬件厂商,浪潮信息为何会频繁亮相于AI领域呢?
其实早在2019年,浪潮信息前沿创新团队就在布局人工智能,进行AI算法相关研究,为优化算力基础设施,提供全栈AI能力奠定了重要的基础。
在AI助盲领域,浪潮信息前沿创新团队已经研发了三年之久。在理解方面,它可以解决一些更高级的“因果”问题,内容方面更加推崇不限模态之间的任意转换。
多模态对行业最大的价值,就是在于其突破了单模态AI应用范围的限制。当前,多模态依然属于探索阶段,每一个模态都有独特的价值,浪潮信息则更希望未来的AI能够利用到一切可以利用的技术,而不再局限于视觉、语音、文本等方面。
对于多模态的探索,浪潮信息认为更重要的是合作,希望有更多的人加入进来,通过AI来解决关键技术难题,然后使其普惠盲人及大众。
当前,我们看到了一个趋势:中国的大型IT企业在飞速发展的同时,也开始愈发地关注环保、公益等社会性活动,致力于推动科技向善。
浪潮信息前沿研究团队正在通过对AI技术的研究,来赋能应用,并与上下游伙伴共同推进AI助盲应用落地,帮助盲人看见、看清、看懂这个世界。