徐九 · 2022年09月20日 · 北京市

数据推荐 | 自然对话语音数据集

从目前的数据行业看,大部分语音识别数据都以朗读式训练数据为主,朗读式语音数据可以解决例如手机语音助手、车载语音助手、智能音箱、智能家电等较为简单的人机交互应用场景。
图片
用户和机器之间通常是以单一短句的形式来对话或进行命令控制,用户往往会注意自己的语速和发音,本质是一种非自然状态下的发音。在这种场景下,朗读式语音数据可以满足语音识别算法的训练需求。
图片
然而,随着语音识别技术在智能客服、智能会议等更多自然场景下的落地,朗读式语音数据的训练效果开始变得差强人意。由于日常生活中说话人的发音习惯更加自然,在发声时会有大量的连音、吞音、发音变形、咬字不清等,包括一些无意识的“嗯、啊、呃”等,说话人往往不会刻意去控制语音、发音习惯,多人同时交流时甚至会出现语句打断、抢话、交叠音等复杂语音现象,所以这种自然对话风格的语音识别率就不是很理想。
图片
数据是人工智能的基础,要想使人工智能技术有更高的准确率,就需要和应用场景更加匹配的训练数据集。自然对话语音数据已经成为业内更急缺的数据集。数据堂在采集自然对话语音数据时,完全没有预设语料,只给出话题列表,录音人从中挑选多个自己感兴趣并熟悉的话题展开对话,确保对话语音自然流畅。目前数据堂拥有20万小时成品语音数据集,其中,自然对话风格的语音数据近4万小时,包括中文普通话、方言、英语、日语、韩语、印地语、越南语、阿拉伯语、西班牙语、法语、德语、意大利语等,发音人来自不同地域及城市、年龄性别覆盖均衡。所有音频都经过了严格的人工转写及质检,标注文本内容、有效句子的起止时间点、录音人身份标识等,句准确率高达95%以上。
图片
部分自然对话语音数据集清单
图片

作者:faddiddn
文章来源:https://segmentfault.com/a/1190000042498506
推荐阅读
关注数
4194
内容数
887
SegmentFault 思否旗下人工智能领域产业媒体,专注技术与产业,一起探索人工智能。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息