本文介绍基于CTC的End-to-End语音识别系统——DeepSpecch,包括简单的原理介绍和代码介绍。阅读本文之前需要了解CTC的基本原理。更多文章...
语音识别技术是指机器自动将人的语音的内容转成文字,又称 Automatic Speech Recognition,即ASR技术。语音识别是一门交叉的、非常复杂...
本文主要梳理Facebook AI Research 从2019年开始的发表的wav2vec系列工作,主要包括了Wav2vec、Wav2vec 2.0
聆思大模型 AI 开发套件(CSK6-MIX)不仅提供了完善的多模态大模型调用功能,还提供了丰富的本地外设接口,可以通过端侧结合大模型来实...
12 月 27 日,中国市占第一的消费级 AR 品牌雷鸟创新发布大模型语音助手 Rayneo AI(beta 版),并通过雷鸟 X2 消费级真 AR 眼镜内测上线。
在可穿戴和个人音频市场,印度本土品牌异军突起,Noise、BoAt、Fire Boltt、Boult Audio 逐渐成为耳闻能详的名字。
在上月的 vivo 开发者大会和 vivo X100 旗舰手机发布会两场活动上,vivo Watch 3 作为首发 vivo 自研蓝河操作系统的设备,看点十足。
改编自余华 1988 年同名小说、由康春雷编剧、魏书钧执导的电影《河边的错误》上映一个多月,票房破三亿,妥妥地成为国产文艺片票房冠军。
聆思全新推出【视觉语音多功能AI开发套件】,为你带来“耳目一芯”的全新体验!不管是语音交互,还是智能视觉,这块开发板通通拿捏。
近半年来如火如荼的「百模大战」让越来越多的终端厂商卷进来,机器人、音箱、手表、眼镜等硬智能硬件产品加持大模型能力,让产品快速接...
日常生活中,我们经常能听见这样的词汇「补觉」。 大致理解,即在睡眠不足或睡眠质量较差的情况下,通过增加额外的睡眠时间来恢复身体和...
近来得空研究了下视频翻译,即将某种语言的视频处理后,显示另一种语言的字幕并使用该语言进行配音。最终实现了这种效果:
背景收到试用套件有一段时间了,放假回来一直在调试另外一个项目,导致这个事情一直拖到现在还没搞完。在这里初步记录一下目前搞到的阶...
人与人交往中,说话表达是最基本的能力和方式,可世界上有很多人,却「有口难言」。「失语症」中,由中风引起的最为常见。他们的声音无...
聆思科技CSK6系列芯片搭载了安谋科技“星辰”STAR-MC1处理器,同时集成了HIFI4 DSP与神经网络处理内核NPU,提供强大的AI能力。本次嘉宾将...
我妈常常抱怨听不清我们讲话,但碍于面子,也不愿意去医院检查听力是否受损。端午节和朋友聚会,发现很多家庭也是这么个情况。
本次视频教程是基于创龙教仪TL6748-PlusTEB教学实验箱完成的。本此教程的目的是了解MP3音频格式,掌握MP3音频编码的原理,并实现基于SYS...
实验目的本节视频的目的是学习基于StarterWare开发环境配置GPIO管脚的方法和原理,并实现StarterWare开发环境下的按键中断控制。
“黑灯工厂”里指挥生产的“工业大脑”,繁忙机场里运筹帷幄的“航空大脑”,还有智慧城市建设的灵魂“城市大脑”……
Transformer模型在自然语言领域被提出后,目前已经扩展到了计算机视觉、语音等诸多领域。然而,虽然Transformer模型在语音识别领域有着...