佳妮英评网 少儿英语 使用Python实现录音播放和翻译,实时翻译

使用Python实现录音播放和翻译,实时翻译

文章目录

私信小编001领取大量Python学习资料

有了它在线英语语音朗读器实时翻译还远吗?

1.还有3秒到达战场

近日,某果手机厂召开发布会,并没有发布备受期待的手机产品南昌英语排名英语,而是发布了一些除手机外的其他产品,其中包括最新的果14系统。系统把玩后突然发现新系统有个超级有趣的功能——翻译

奇怪的翻译知识增加了!

与普通翻译工具相比,同声翻译工具更具实用价值。 想到不用精通其他语言也能和朋友无障碍交流的场景,真的是一件很美好的事情。 最好自己实现一个工具作为备份! 一个同声翻译工具 对于声学翻译工具来说,逻辑大概可以是先识别,再翻译。 翻译能否成功,识别的准确性是一个关键因素。 为了降低难度十大英语,我决定分两部分完成工具开发。 首先补习英语青岛学英语,让我们实现尝试语音识别的部分。

有道熟路,本demo继续调用有道智云API网站英文,实现实时语音识别。

2.效果展示

先来看看界面和结果:

您可以选择多种语音,这里只介绍四种常用的:

我分别测试了中文、韩文、英文。 看起来不错~

这里的翻译结果是根据音频逐字实时识别的。 由于识别速度比较快,所以好像没有时间差。

4.调用API接口准备

首先需要创建一个实例,创建一个应用,在有道智云个人页面绑定应用和实例,获取调用接口的应用id和key。具体个人注册流程和应用创建过程资源学英语,请参考文章分享一个批处理文件翻译的开发过程

五、开发过程详细介绍 (一)准备工作

下面介绍具体的代码开发过程。

首先是根据实时语音识别文档分析接口的输入输出。 接口设计的目的是实时识别连续的音频流,转换成文本信息并返回相应的文本流英文陪练外教英语,所以通信使用websocket学英语网课,调用过程分为认证和实时两个阶段沟通。

在认证阶段,需要发送以下参数:

参数类型是必需的。 Description Example appKeyString 为应用程序 IDIDsaltString 为 UUIDUUIDcurtimeString 为时间戳(秒) TimeStampsignString 为加密后的数字签名。 sha256signTypeString 为数字签名类型 v4langTypeString 为语言选择,参考支持语言列表 zh-CHSformatString 为音频格式,支持wavwavchannelString 为音频通道拉萨英语,支持1(单声道) 1versionString 为api版本 v1rateString 为采样速率 16000

签名sign生成方法如下:

符号类型 = v4;

sign=sha256(应用程序 ID+salt+curtime+应用程序密钥)。

认证通过后进入实时通信阶段,发送音频流,得到识别结果,最后发送结束标志结束通信。 这里需要注意的是,要发送的音频最好是16位位深的单声道,清晰的16k采样率。 wav音频文件补习班外教,一开始开发的时候因为录音设备的问题导致音频效果极差,界面一直返回错误码304(手动捂脸)。

(二)发展

本demo使用python3开发,包括maindow.py、audioandprocess.py、recobynetease.py三个文件。 界面部分使用python自带的tkinter库进行语言选择、​​开始录音、停止录音和识别操作。 audioandprocess.py实现了录音和音频处理的逻辑留学英文机构英文,最终通过recobynetease.py中的方法调用实时语音识别API。

1.接口部分

主要内容:


root=tk.Tk()

在线英语语音朗读器

root.title("netease youdao translation test") frm = tk.Frame(root) frm.grid(padx='80', pady='80') label=tk.Label(frm,text='选择语言类型:') label.grid(row=0,column=0) combox=ttk.Combobox(frm,textvariable=tk.StringVar(),width=38) combox["value"]=lang_type_dict combox.current(0) combox.bind("<>",get_lang_type) combox.grid(row=0,column=1) btn_start_rec = tk.Button(frm, text='开始录音', command=start_rec) btn_start_rec.grid(row=2, column=0) lb_Status = tk.Label(frm, text='Ready', anchor='w', fg='green') lb_Status.grid(row=2,column=1) btn_sure=tk.Button(frm,text="结束并识别",command=get_result) btn_sure.grid(row=3,column=0) root.mainloop()

选择语言类型后外教那个好,开始录音学学英语,录音结束后在线英语语音朗读器潍坊外教,通过get_result()方法调用接口进行识别。

def get_result():
    lb_Status['text']='Ready'
    sr_result=au_model.stop_and_recognise()

2.录音部分的开发

录音部分介绍pyaudio库(需要通过pip安装)调用音频设备录制接口需要的wav文件,调用wave库存储音频文件。

Audio_model类的构造:

    def __init__(self, audio_path, language_type,is_recording):
        self.audio_path = audio_path,					# 录音存储路径
        self.audio_file_name=''							# 录音文件名
        self.language_type = language_type,				# 录音语言类型
        self.language_dict=["zh-CHS","en","ja","ko"]	# 支持的语言,用于从UI出的类型转为接口所需类型
        self.language=''

在线英语语音朗读器

self.is_recording=is_recording # 录音状态 self.audio_chunk_size=1600 # 以下为一些接口所要求的录音参数,采样率、编码、通道等 self.audio_channels=1 self.audio_format=pyaudio.paInt16 self.audio_rate=16000

(2)record()方法的开发

record()方法实现录音逻辑,调用pyaudio库,读取音频流使用Python实现录音播放和翻译绍兴外教,实时翻译,写入文件。

    def record(self,file_name):
        p=pyaudio.PyAudio()
        stream=p.open(
            format=self.audio_format,
            channels=self.audio_channels,
            rate=self.audio_rate,
            input=True,
            frames_per_buffer=self.audio_chunk_size
        )
        wf = wave.open(file_name, 'wb')
        wf.setnchannels(self.audio_channels)
        wf.setsampwidth(p.get_sample_size(self.audio_format))
        wf.setframerate(self.audio_rate)
        # 读取数据写入文件
        while self.is_recording:
            data = stream.read(self.audio_chunk_size)
            wf.writeframes(data)
        wf.close()
        stream.stop_stream()
        stream.close()
        p.terminate()

(3) stop_and_recognise()方法的开发

stop_and_recognize()方法将Audio_model的录音状态标记为false,并启动调用有道智云API的方法。

    def stop_and_recognise(self):
        self.is_recording=False
        recognise(self.audio_file_name,self.language_dict[self.language_type])

3、实时语音识别部分开发

在线英语语音朗读器

有道智云的实时语音识别接口采用socket通信。 为了简化展示逻辑,这里开发了一个展示识别结果的界面成人英文,使用tkinter展示:

#输出结果的窗口
root = tk.Tk()
root.title("result")
frm = tk.Frame(root)
frm.grid(padx='80', pady='80')
text_result = tk.Text(frm, width='40', height='20')
text_result.grid(row=0, column=1)

recognize()方法根据接口文档将需要的参数拼接成uri桂林英语,传递给start()方法请求接口:

def recognise(filepath,language_type):
    print('l:'+language_type)
    global file_path
    file_path=filepath
    nonce = str(uuid.uuid1())
    curtime = str(int(time.time()))
    signStr = app_key + nonce + curtime + app_secret
    print(signStr)
    sign = encrypt(signStr)
    uri = "wss://openapi.youdao.com/stream_asropenapi?appKey=" + app_key + "&salt=" + nonce + "&curtime=" + curtime + 
          "&sign=" + sign + "&version=v1&channel=1&format=wav&signType=v4&rate=16000&langType=" + language_type
    print(uri)
    start(uri, 1600)

start()方法是实时识别部分的核心方法,通过websocket调用识别接口。

def start(uri):
    websocket.enableTrace(True)
    ws = websocket.WebSocketApp(uri,
                                on_message=on_message,
                                on_error=on_error,
                                on_close=on_close)
    ws.on_open = on_opend
    ws.run_forever()

在线英语语音朗读器

请求接口时,首先读取之前录制的音频文件学英语学英语,发送:

def on_open(ws):
    count = 0
    file_object = open(file_path, 'rb')  #打开录制的音频
    while True:
        chunk_data = file_object.read(1600)
        ws.send(chunk_data, websocket.ABNF.OPCODE_BINARY)  #发送
        time.sleep(0.05)
        count = count + 1
        if not chunk_data:
            break
    print(count)
    ws.send('{"end": "true"}', websocket.ABNF.OPCODE_BINARY)

然后在通信过程中对接口返回的消息进行处理,收集接口返回的识别结果:

def on_message(ws, message):
    result=json.loads(message)
    resultmessage= result['result']  #解析调用接口的返回结果
    
    if resultmessage:
        resultmessage1 = result['result'][0]
        resultmessage2 = resultmessage1["st"]['sentence']
        print(resultmessage2)
        #text_result.insert(tk.END, resultmessage2+'n')
        result_arr.append(resultmessage2)

最后常州英语,通信后显示识别结果:

def on_close(ws):
    print_resule(result_arr)
    print("### closed ###")
    
def print_resule(arr):
    text_result.delete('1.0',tk.END)
    for n in arr:
        text_result.insert("insert", n + 'n')

五、总结

有道智云提供的界面一如既往的好用。 这次开发的主要精力都浪费在了自己录制的音频质量不好导致识别失败的问题上。 音质ok后在线英语语音朗读器,识别结果准确。 接下来就是Take it for translation了,有了有道智云API,实时翻译也可以这么简单

本文来自网络,不代表佳妮英评网立场,转载请注明出处。

作者: admin


Warning: file_put_contents(/wwwroot/wwwrot/www.jncmzs.com/95421.html): failed to open stream: Permission denied in /wwwroot/wwwrot/www.jncmzs.com/wp-content/plugins/super-static-cache/super-static-cache.php on line 388