斌斌yubinalice · 2019年08月26日

AI语音实时转写

使用EAIDK-310进行实时语音转写。
使用百度API来完成。

首先,安装aip

pip install baidu-aip

openailab@192~_007.png

然而,由于忘记sudo,所以失败了,

openailab@192~_009.png

sudo之后成功,

openailab@192~_010.png

然后在百度ai平台注册账号,我们也可以直接使用我们的百度网盘的账号登录。
这里需要注意的是,由于我们的开发板只有1GB内存,因此使用Firefox上网的时候会经常卡死,因此不建议使用开发板去百度ai平台,太卡了。

百度AI开放平台-全球领先的人工智能服务平台-百度AI开放平台 - Mozilla Firefox_011.png
上面这个图是开发板的崩溃图,下面的图是电脑上面用Chrome登录的

QQ截图20190826152725.png

登录之后创建应用,

QQ截图20190826152910.png

QQ截图20190826153137.png

QQ截图20190826153155.png

随后获得id密码,分别获取三个参数,
APP_ID API_KEY SECRET_KEY,
其中SECRET_KEY默认是隐藏的,点击才显示。

然后写一段python代码。

from aip import AipSpeech
APP_ID = '' //写自己的
API_KEY = '' //写自己的
SECRET_KEY = '' //写自己的

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
lan="Hello Baidu AI" 
result = client.synthesis(lan, 'zh', 1, { 'vol': 5, 'per': 5, 'spd':5 })

if not isinstance(result,dict):
with open('./Baidu-TTS.mp3', 'wb') as f:
    f.write(result)

不知道怎么回事,使用中文就会失败。可能是系统没有安装中文文字的缘故。

随后生成MP3文件。使用ffplay播放发现正确。

desktop 1_014.png

上面说的是使用百度的开放api来制作电子书。
随后我试图进行声音转换文字,却发现没有离线的api,于是想到开发板的性能确实无法实时转写。
IMG_20190826_163244.jpg
不知道用什么方法能把这个图转过来,但是不妨碍大家看到这里面没有离线的语音转换api。
不知道什么配置能够实时转换。许多会议的会场都有这个实时语音转文字以及实时翻译的工具。

不过利用这个开发板到时可以自己制作一批有声书。然而根据我自己的感觉,转换文字到声音的时间比较长。

刚刚百度了一下,发现了无法使用中文的原因,需要增加一段utf-8的代码。

# -*- coding:utf-8 -*-

QQ截图20190826133754.png

执行完毕之后,

QQ截图20190826134912.png

等我弄懂怎么在线识别之后,在把这两个文件识别成文字。

期待中!

文件名 大小 下载次数 操作
Baidu-TTS.mp3 3.38KB 0 下载
Baidu-TTS-Chinese.mp3 3.66KB 0 下载
推荐阅读
关注数
3509
内容数
57
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息