忘忧__ · 2023年09月04日 · 美国

【2023研电赛】安谋科技企业命题二等奖:基于R329的AI交互早教机器人

本文为2023年第十八届中国研究生电子设计竞赛安谋科技企业命题二等奖分享,参加极术社区的【有奖活动】分享2023研电赛作品扩大影响力,更有丰富电子礼品等你来领!,分享2023研电赛作品扩大影响力,更有丰富电子礼品等你来领!

基于R329的AI交互早教机器人

参赛单位:南京邮电大学
队伍名称:挖掘机
参赛队员:江蕴宇 王大志 江着帆

作品简介

随着人工智能技术的迅速进步和智能设备的普及,人们对于个性化、互动式学习工具的需求也日益增加。早期教育被认为是儿童发展的关键时期,因此,开发一款结合AI技术的早教机器人成了众多家长和孩子们的需求。市面上的早教机器人很多,但是大多数机器人的功能都不太完善,尤其是语音交互方面。
而近半年来,随着ChatGPT的爆火,聊天AI模型渐渐走进大众的视野。其中,文心一言就是百度全新一代的知识增强大语言模型,它能够与人对话互动,包括回答问题、协助创作,高效性和便捷性是文心一言这类大语言模型最大的亮点。
结合以上两点,我们团队设计并开发了这款AI交互早教机器人。作品的外观如下图所示:
可达鸭.jpg
我们设计的机器人具备以下功能:
(1)人脸识别
采用Retinaface模型并且对其进行了优化。能够做到同时进行人脸框检测和关键点定位,并且能够对提前在板子里录入好的人脸进行有效识别。
(2)语音识别
包括语音唤醒以及长语音连续识别。人脸识别通过后,通过呼叫关键词“小安同学”唤醒我们的机器人,并与其进行交互;机器人可以连续识别一段很长的提问,并且将语音转化成文字实时显示在屏幕上。
(3)AI交互
我们团队总共给我们的机器人设计了4个小功能,分别是AI问答、古诗朗诵、儿歌欣赏、认识动植物。其中,AI问答功能调用文心一言的API实现,并通过tts工具语音输出;古诗朗诵功能是我们将适合早教的古诗存在板子里,并且每首古诗我们都为其添加了朗诵跟读功能,可以识别儿童的发言是否标准;儿歌欣赏功能与之类似;认识动植物模块里面包含了常见的动植物的科普以及它们的英文发音。
(4)断点续存
上述的AI交互的所有功能我们都为它们做了断点续存功能,也就是每次重新开机之后都会继续上次用户保存的进度,不同的用户保存进度也不同。

算法简介

人脸识别算法

人脸识别模块我们采用的是Retinaface模型并对其进行了优化。RetinaFace是一种用于人脸检测和人脸关键点定位的深度学习模型,它旨在精确地检测图像或视频中的人脸,并标识人脸的重要关键点,如眼睛、鼻子和嘴巴等。这个模型的主要特点是其高度准确的检测性能,特别是对小尺寸人脸的检测,以及对多尺寸和多姿势的适应能力。
然而,Retinaface并没有人脸识别的能力,因此,我们团队在Retinaface关键点定位的基础上,根据每个人脸关键点间距比例的不同进行识别,将我们通过摄像头录入的人脸放在PC端进行训练,最后人脸检测的帧率维持在20帧左右,精确度达到95%,速度在稳定在5s以内。
人脸识别.jpg

语音识别算法

语音识别模块我们在矽速科技Maix ASR的基础上进行了优化。Maix ASR具备连续数字识别、关键词识别和大词汇量连续语音识别等功能模块,满足早教机器人系统的需求。其次,Maix ASR采用AM+LM两段式识别,可灵活配置声学模型和语言模型,适应不同的嵌入式场景,也支持加入热词等功能。第三,Maix ASR适用于嵌入式设备,具有较低的计算资源需求和较高的运行效率,能够实时响应用户的语音输入。
我们团队做的工作就是在这个模型的基础上对其在早教领域进行了一定的优化。首先,对于孩子说话口齿、逻辑不清晰的问题,我们采用自然语言处理(NLP)技术,将一些不符合中文语法规则的语音输入进行剔除,防止其直接进入AI问答环节,并请求用户重新提出问题,从而大大减少了无效的人机交互。其次,在关键词识别功能的基础上我们增加了市面上蓝牙音箱常用的语音唤醒功能,用户在人脸识别通过后随时可以呼叫“小安同学”来唤醒我们的机器人。
语音识别.jpg

断点续存算法

我们早教机器人的AI交互模块功能很多,除了市面上常见的AI对话、儿歌欣赏等,我们还增加了古诗朗诵与跟读和认识动植物(中英文教学)等功能,除了AI对话功能是联网的,其他所有功能都是离线的、内置在我们的机器人中的。因此,对于不同用户(比如家里有多个孩子)的学习进度不尽相同的问题,我们设计了一个断点续存算法。这个算法原理其实非常简单,对于各个不同的用户,我们分别建立了属于他们的文件夹,在这个文件夹里有属于他们每个功能的学习进度文档,用户每次学习与使用都会使这个文档里对应的数字有所改变,那么在下一次用户使用时就能读取这个文件并继续上次保存的进度了。

技术流程

技术流程.jpg
机器人开机后,会语音提示进行人脸识别,用户通过人脸识别后,就可以通过呼叫“小安同学”随时唤醒机器人,接着就进入了人机交互的具体功能。唤醒机器人后,通过关键词“我想学古诗”进入古诗朗诵与跟读模块,机器人会挑选适合儿童早教的古诗词进行朗诵,并要求用户跟读,并且还会对用户跟读的发音进行校正,培养孩子的文化素养以及中文发音;通过关键词“我想学英语”进入动植物认识与英语学习模块,在这个模块中,机器人会介绍一些简单的动植物以及它们的英文发音,并将其展示在显示屏上;通过关键词“我想听儿歌”进入儿歌欣赏模块,里面内置了上百首适合儿童的经典与现代儿歌。如果语音中不含这些关键词,那么就会跳转到AI对话模块,我们对文心一言的回答做了约束,即回答对象是儿童并将字数限制在50字以内。

作品创新

(1)人脸检测采用RetinaFace模型,可以同时进行人脸框检测和人脸关键点定位,在此基础上通过关键点的比例不同进行人脸识别,并且还可以根据识别到的人脸继续上一次保存的学习进度。
(2)语音识别采用关键词唤醒以及长语音连续识别,并且针对孩子说话逻辑不清晰的问题进行了优化。
(3)结合最近火热的聊天机器人文心一言,并针对早教场景加入新的功能,重视机器人与孩子的交互,提高机器人整体的趣味性,激发孩子的好奇心。

未来展望

一方面,我们的机器人看似功能不少,其实真正能算得上创新的其实很少,希望未来有机会能把我们自己真正的创新运用起来;另一方面,我们的作品名字叫“早教机器人”,但其实目前为止它是不会动的,我们有想过给可达鸭里面加几个舵机控制其四肢,但受限于作品的大小还是放弃了,如果有机会的话可以定制一个外壳,让机器人能有更多的动作与孩子互动。

参赛感悟

通过这次研电赛,我们团队所有人在嵌入式领域又有了一定的进步,队员之间的配合与合作越来越紧密。这次参赛接触到的各种算法、各种新型应用场景,都是未来我们在工作中可能会有所接触的领域。看到了这么多优秀的作品,只能说我们的水平真的极其有限,也给了我们团队继续进步的动力。感谢大赛组委会以及安谋科技的支持,希望还能有机会参加这样的比赛~

参加极术社区的【有奖活动】分享2023研电赛作品扩大影响力,更有丰富电子礼品等你来领!,分享2023研电赛作品扩大影响力,更有丰富电子礼品等你来领!
更多研电赛作品分享请关注IC技术竞赛作品分享
推荐阅读
关注数
18728
内容数
130
基于Arm技术竞赛作品的分享,欢迎交流~
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息