您现在的位置是:首页 > 技术教程 正文

第三篇【传奇开心果系列】Python的文本和语音相互转换库技术点案例示例:pyttsx3实现语音助手经典案例

admin 阅读: 2024-03-25
后台-插件-广告管理-内容页头部广告(手机)

传奇开心果短博文系列

  • 系列短博文目录
    • Python的文本和语音相互转换库技术点案例示例系列
  • 短博文目录
    • 一、项目背景和目标
    • 二、雏形示例代码
    • 三、扩展思路介绍
    • 四、与其他库和API集成示例代码
    • 五、自定义语音示例代码
    • 六、多语言支持示例代码
    • 七、语音控制应用程序示例代码
    • 八、文本转语音通知示例代码
    • 九、语音交互界面示例代码
    • 十、实现更复杂交互界面示例代码
    • 十一、归纳总结

系列短博文目录

Python的文本和语音相互转换库技术点案例示例系列

短博文目录

一、项目背景和目标

在这里插入图片描述
在这里插入图片描述当今社会人工智能机器学习在我国方兴未艾,语音助手无处不在大显神威。大到歼20战斗机语音辅助操控,中到家用小汽车语音辅助操控,小到智能家居语音操控、小爱同学操控音响设备等,可以说语音助手已经深入工作、生活和社会的各个方面。

pyttsx是一个Python库,用于实现文本到语音的转换。它提供了一个使用简单的API,可以很方便地让你的Python程序实现生成语音输出的语音助手。

二、雏形示例代码

在这里插入图片描述下面是一个简单的语音助手示例代码:

  1. 安装 pyttsx 库:

    pip install pyttsx
    • 1
  2. 导入 pyttsx:

    import pyttsx
    • 1
  3. 创建 pyttsx 的引擎对象:

    engine = pyttsx.init()
    • 1
  4. 设置语音助手的属性(可选):

    engine.setProperty('rate', 150) # 设置语速(默认为200) engine.setProperty('volume', 0.8) # 设置音量(范围为0.0到1.0)
    • 1
    • 2
  5. 将文本转换为语音并播放:

    engine.say("你好,我是语音助手") engine.runAndWait()
    • 1
    • 2

    这段代码会将文本 “你好,我是语音助手” 转换为语音并播放出来。

  6. 如果你想将文本保存为音频文件,可以使用 save_to_file 方法:

    engine.save_to_file("你好,我是语音助手", "output.mp3") engine.runAndWait()
    • 1
    • 2

    这段代码会将文本 “你好,我是语音助手” 转换为语音,并保存为名为 “output.mp3” 的音频文件。

这只是一个简单的示例,pyttsx 还提供了其他功能,如设置语言、获取可用的语音引擎等。你可以查看 pyttsx 的官方文档以获取更多详细信息和示例代码:https://pyttsx.readthedocs.io/

三、扩展思路介绍

在这里插入图片描述当你熟悉了基本的 pyttsx 库的用法后,你可以进一步扩展你的语音助手的功能。以下是一些扩展思路:

  1. 与其他库和API集成:将 pyttsx 与其他库和API结合使用,以增强语音助手的功能。例如,你可以使用 speech_recognition 库来实现语音识别,将用户的语音输入转换为文本,并使用 pyttsx 将回应转换为语音输出。

  2. 自定义语音:使用 pyttsx 的 setProperty 方法来调整语音助手的属性,例如语速、音量和音调,以使语音更加自然和适合用户的喜好。

  3. 多语言支持:pyttsx 支持多种语言和语音引擎。你可以通过设置 pyttsx 的 setProperty 方法来切换语言,从而实现多语言支持的语音助手。

  4. 语音控制应用程序:结合其他库和框架,你可以创建一个可以通过语音控制的应用程序。例如,你可以使用 pyttsx 和 pyautogui 库来实现语音控制鼠标和键盘,从而实现语音导航和操作。

  5. 文本转语音通知:使用 pyttsx 将文本转换为语音,以实现通知功能。你可以将系统的提醒、日程安排、新闻等文本内容转换为语音,并通过语音播放给用户。

  6. 语音交互界面:创建一个交互式的语音界面,让用户可以通过语音与你的应用程序进行交互。你可以使用 pyttsx 结合其他库和框架,例如 pyaudio 和 speech_recognition,来实现语音输入和输出的交互式界面。

这些是一些扩展思路,你可以根据你的需求和兴趣进一步探索和扩展你的语音助手的功能。记得查阅相关文档和示例代码,以更好地理解和使用相关库和API。

四、与其他库和API集成示例代码

在这里插入图片描述
在这里插入图片描述当将 pyttsx 与 speech_recognition 库结合使用时,你可以实现一个能够接收语音输入并以语音回应的语音助手。以下是一个示例代码:

import speech_recognition as sr import pyttsx3 # 创建语音识别器对象 recognizer = sr.Recognizer() # 创建语音合成引擎对象 engine = pyttsx3.init() # 定义语音助手的回应函数 def respond(text): print("助手:", text) engine.say(text) engine.runAndWait() # 语音助手的主循环 while True: try: # 使用麦克风录音 with sr.Microphone() as source: print("请说话:") audio = recognizer.listen(source) # 识别语音输入 text = recognizer.recognize_google(audio, language="zh-CN") print("用户:", text) # 根据用户输入作出回应 if "你好" in text: respond("你好!我是语音助手。") elif "再见" in text: respond("再见!祝你有美好的一天!") break else: respond("抱歉,我不理解你的意思。") except sr.UnknownValueError: print("抱歉,无法识别你的语音。") except sr.RequestError: print("抱歉,无法连接到语音识别服务。")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40

这段代码使用 speech_recognition 库来监听麦克风输入,并使用 Google 语音识别服务将语音转换为文本。然后,根据用户的输入作出相应的回应,使用 pyttsx 将回应转换为语音输出。

在这个示例中,语音助手会回应"你好!我是语音助手。"当用户说"你好"时,回应"再见!祝你有美好的一天!“当用户说"再见"时,然后退出程序。对于其他用户输入,语音助手会回应"抱歉,我不理解你的意思。”

请确保已安装 speech_recognition 和 pyttsx3 库,并根据需要调整语音助手的回应逻辑。你还可以根据需要添加其他功能,例如语音控制、多语言支持等。

五、自定义语音示例代码

在这里插入图片描述
在这里插入图片描述当使用 pyttsx3 的 setProperty 方法来自定义语音属性时,你可以调整语音助手的语速、音量和音调等属性,以使语音更加自然和符合用户的喜好。以下是一个示例代码:

import pyttsx3 # 创建语音合成引擎对象 engine = pyttsx3.init() # 获取当前语音属性 rate = engine.getProperty('rate') # 语速 volume = engine.getProperty('volume') # 音量 pitch = engine.getProperty('pitch') # 音调 # 设置新的语音属性 engine.setProperty('rate', 150) # 设置语速为150 engine.setProperty('volume', 0.8) # 设置音量为0.8 engine.setProperty('pitch', 1.2) # 设置音调为1.2 # 定义语音助手的回应函数 def respond(text): print("助手:", text) engine.say(text) engine.runAndWait() # 测试自定义语音属性 respond("你好!我是语音助手。") # 恢复默认语音属性 engine.setProperty('rate', rate) # 恢复默认语速 engine.setProperty('volume', volume) # 恢复默认音量 engine.setProperty('pitch', pitch) # 恢复默认音调 # 测试恢复默认语音属性 respond("你好!我是语音助手。")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象。然后,通过 getProperty 方法获取当前的语音属性,包括语速、音量和音调。接下来,使用 setProperty 方法设置新的语音属性,例如将语速设置为150,音量设置为0.8,音调设置为1.2。然后,定义了一个回应函数 respond,该函数会打印回应文本并使用语音合成引擎进行语音输出。

在示例中,我们先测试了使用自定义语音属性的回应,然后恢复了默认的语音属性,并再次进行了回应测试。

你可以根据需要调整语音属性的值,以使语音更加自然和适合用户的喜好。请注意,具体的语音属性值可能因系统和语音引擎而异。你可以尝试不同的值来找到最适合的设置。

六、多语言支持示例代码

在这里插入图片描述
pyttsx3 支持多种语言和语音引擎,你可以通过设置 setProperty 方法来切换语言,从而实现多语言支持的语音助手。以下是一个示例代码:

import pyttsx3 # 创建语音合成引擎对象 engine = pyttsx3.init() # 获取当前语音属性 voices = engine.getProperty('voices') # 打印可用的语音列表 print("可用的语音列表:") for voice in voices: print("名称:", voice.name) print("ID:", voice.id) print("语言:", voice.languages) print("性别:", voice.gender) print("") # 设置新的语音属性(切换语言) engine.setProperty('voice', voices[1].id) # 设置语音为第二个可用语音 # 定义语音助手的回应函数 def respond(text): print("助手:", text) engine.say(text) engine.runAndWait() # 测试多语言支持 respond("Hello! I am a multilingual voice assistant.") respond("你好!我是一个多语言语音助手。") # 恢复默认语音属性(切换回默认语言) engine.setProperty('voice', voices[0].id) # 设置语音为第一个可用语音 # 测试恢复默认语音属性 respond("Hello! I am a multilingual voice assistant.") respond("你好!我是一个多语言语音助手。")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象,并使用 getProperty 方法获取当前可用的语音列表。然后,我们打印了每个语音的名称、ID、语言和性别等信息。

接下来,使用 setProperty 方法将语音属性设置为第二个可用语音,以切换语言。你可以根据需要选择其他可用的语音。

然后,定义了一个回应函数 respond,该函数会打印回应文本并使用语音合成引擎进行语音输出。

在示例中,我们先测试了使用第二个可用语音的回应,然后恢复了默认的语音属性,再次进行了回应测试。

你可以根据需要选择合适的语音,以实现多语言支持的语音助手。请注意,可用的语音和语言取决于你的系统和安装的语音引擎。

七、语音控制应用程序示例代码

在这里插入图片描述
在这里插入图片描述要创建一个可以通过语音控制的应用程序,你可以结合使用 pyttsx3 和其他库和框架来实现不同的功能。下面是一个示例代码,演示了如何使用 pyttsx3 和 pyautogui 库来实现语音控制鼠标和键盘:

import pyttsx3 import speech_recognition as sr import pyautogui # 创建语音合成引擎对象 engine = pyttsx3.init() # 创建语音识别器对象 recognizer = sr.Recognizer() # 定义语音助手的回应函数 def respond(text): print("助手:", text) engine.say(text) engine.runAndWait() # 定义语音控制函数 def voice_control(): with sr.Microphone() as source: print("请说话...") audio = recognizer.listen(source) try: # 使用语音识别器将语音转换为文本 text = recognizer.recognize_google(audio, language='zh-CN') print("你说:", text) # 根据识别到的文本执行相应的操作 if "向上" in text: pyautogui.move(0, -100, duration=0.5) # 向上移动鼠标 elif "向下" in text: pyautogui.move(0, 100, duration=0.5) # 向下移动鼠标 elif "向左" in text: pyautogui.move(-100, 0, duration=0.5) # 向左移动鼠标 elif "向右" in text: pyautogui.move(100, 0, duration=0.5) # 向右移动鼠标 elif "点击" in text: pyautogui.click() # 点击鼠标左键 elif "退出" in text: respond("再见!") return else: respond("抱歉,我无法理解你的指令。") except sr.UnknownValueError: respond("抱歉,无法识别你说的话。") except sr.RequestError: respond("抱歉,无法连接到语音识别服务。") # 继续监听语音输入 voice_control() # 启动语音控制 respond("你好!我是语音助手。请告诉我你想要做什么。") voice_control()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象和一个 speech_recognition 的语音识别器对象。然后,定义了一个回应函数 respond,该函数会打印回应文本并使用语音合成引擎进行语音输出。

接下来,定义了一个语音控制函数 voice_control,该函数使用语音识别器监听麦克风输入,并将语音转换为文本。根据识别到的文本,执行相应的操作,例如移动鼠标、点击鼠标等。

在示例中,我们定义了一些简单的指令,如 “向上”、“向下”、“向左”、“向右”、“点击” 等。你可以根据需要扩展指令和相应的操作。

最后,启动语音控制,语音助手会打招呼并等待你的指令。你可以说出相应的指令,语音助手会执行对应的操作。

请注意,此示例仅演示了如何结合 pyttsx3 和 pyautogui 库实现语音控制鼠标和键盘的功能。根据你的需求,你可以结合其他库和框架来实现更复杂的语音控制应用程序。

八、文本转语音通知示例代码

在这里插入图片描述
pyttsx3 库可以将文本转换为语音,实现通知功能。下面是一个示例代码,演示了如何使用 pyttsx3 将文本内容转换为语音并进行播放:

import pyttsx3 # 创建语音合成引擎对象 engine = pyttsx3.init() # 定义文本转语音函数 def text_to_speech(text): engine.say(text) engine.runAndWait() # 定义通知函数 def notify(message): print("通知:", message) text_to_speech(message) # 示例用法 notify("这是一条通知消息。") notify("你的日程安排已更新。") notify("以下是今天的新闻摘要:") notify("这是一条很长的通知消息,可以包含多个句子和段落。") # 关闭语音合成引擎 engine.stop()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象。然后,定义了一个文本转语音函数 text_to_speech,该函数使用语音合成引擎将文本转换为语音并进行播放。

接下来,定义了一个通知函数 notify,该函数接受一个文本消息作为参数,并打印通知消息并通过语音播放。

在示例中,我们使用 notify 函数演示了几个通知消息的例子。你可以根据需要调用 notify 函数,将不同的文本内容转换为语音进行通知。

最后,我们通过调用 engine.stop() 来关闭语音合成引擎。

请注意,使用 pyttsx3 进行文本转语音时,可以根据需要设置语音的属性,如语速、音量等。你可以使用 engine.setProperty 方法来设置这些属性。例如,engine.setProperty('rate', 150) 可以设置语速为 150 字符每分钟。

九、语音交互界面示例代码

在这里插入图片描述要创建一个交互式的语音界面,可以结合使用 pyttsx3、pyaudio 和 speech_recognition 等库来实现语音输入和输出的功能。下面是一个示例代码,演示了如何创建一个简单的语音交互界面:

import pyttsx3 import speech_recognition as sr # 创建语音合成引擎对象 engine = pyttsx3.init() # 创建语音识别器对象 recognizer = sr.Recognizer() # 定义语音助手的回应函数 def respond(text): print("助手:", text) engine.say(text) engine.runAndWait() # 定义语音交互函数 def voice_interaction(): with sr.Microphone() as source: print("请说话...") audio = recognizer.listen(source) try: # 使用语音识别器将语音转换为文本 text = recognizer.recognize_google(audio, language='zh-CN') print("你说:", text) # 根据用户输入的文本进行相应的回应 if "你好" in text: respond("你好!有什么我可以帮助你的吗?") elif "时间" in text: # 这里可以调用其他库或函数获取当前时间并进行回应 respond("现在是晚上8点。") elif "退出" in text: respond("再见!") return else: respond("抱歉,我无法理解你的指令。") except sr.UnknownValueError: respond("抱歉,无法识别你说的话。") except sr.RequestError: respond("抱歉,无法连接到语音识别服务。") # 继续语音交互 voice_interaction() # 启动语音交互 respond("你好!我是语音助手。有什么我可以帮助你的吗?") voice_interaction()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象和一个 speech_recognition 的语音识别器对象。然后,定义了一个回应函数 respond,该函数会打印回应文本并使用语音合成引擎进行语音输出。

接下来,定义了一个语音交互函数 voice_interaction,该函数使用语音识别器监听麦克风输入,并将语音转换为文本。根据用户输入的文本,执行相应的回应。

在示例中,我们定义了一些简单的指令,如 “你好” 和 “时间”。根据用户的指令,语音助手会进行相应的回应。你可以根据需要扩展指令和相应的操作。

最后,启动语音交互,语音助手会打招呼并等待用户的指令。你可以通过语音与语音助手进行交互。

请注意,这个示例代码只是一个简单的交互式语音界面的演示。你可以根据自己的需求和应用场景,扩展和定制这个代码,结合其他库和框架实现更复杂的语音交互功能。

十、实现更复杂交互界面示例代码

在这里插入图片描述当扩展和定制语音交互功能时,你可以根据自己的需求和应用场景,结合其他库和框架来实现更复杂的功能。以下是一个示例代码,展示了如何使用 pyttsx3、speech_recognition 和 wikipedia 库来创建一个语音交互的维基百科助手:

import pyttsx3 import speech_recognition as sr import wikipedia # 创建语音合成引擎对象 engine = pyttsx3.init() # 创建语音识别器对象 recognizer = sr.Recognizer() # 定义语音助手的回应函数 def respond(text): print("助手:", text) engine.say(text) engine.runAndWait() # 定义语音交互函数 def voice_interaction(): with sr.Microphone() as source: print("请说话...") audio = recognizer.listen(source) try: # 使用语音识别器将语音转换为文本 text = recognizer.recognize_google(audio, language='zh-CN') print("你说:", text) # 根据用户输入的文本进行相应的回应 if "你好" in text: respond("你好!有什么我可以帮助你的吗?") elif "维基百科" in text: query = text.replace("维基百科", "").strip() try: # 使用维基百科库获取相关信息 summary = wikipedia.summary(query, sentences=2) respond(summary) except wikipedia.exceptions.DisambiguationError as e: respond("请提供更具体的查询内容。") except wikipedia.exceptions.PageError as e: respond("抱歉,找不到相关信息。") elif "退出" in text: respond("再见!") return else: respond("抱歉,我无法理解你的指令。") except sr.UnknownValueError: respond("抱歉,无法识别你说的话。") except sr.RequestError: respond("抱歉,无法连接到语音识别服务。") # 继续语音交互 voice_interaction() # 启动语音交互 respond("你好!我是维基百科助手。有什么我可以帮助你的吗?") voice_interaction()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57

在这个示例中,我们引入了 wikipedia 库,以便通过维基百科获取相关信息。当用户输入包含 “维基百科” 的指令时,我们使用 wikipedia.summary 函数来获取相关信息的摘要,并将其作为回应进行语音输出。

你可以根据自己的需求和应用场景,扩展和定制这个代码。例如,你可以使用其他库来获取天气信息、新闻摘要等,并根据用户的指令进行相应的回应。

请注意,使用维基百科库时,可能会遇到一些异常情况,如歧义性错误或页面错误。在示例中,我们使用了 try-except 块来处理这些异常情况,并作出相应的回应。

希望这个示例代码能够帮助你扩展和定制语音交互功能!

十一、归纳总结

在这里插入图片描述当使用 pyttsx3 库实现语音助手时,以下是一些关键的知识点:

  1. 安装 pyttsx3 库:可以使用 pip 命令来安装 pyttsx3 库,例如 pip install pyttsx3。

  2. 初始化语音合成引擎:使用 pyttsx3.init() 函数来创建一个语音合成引擎对象。可以通过调用该对象的方法来进行语音合成。

  3. 设置语音合成属性:可以使用 engine.setProperty(property, value) 方法来设置语音合成的属性。例如,可以设置语速、音量等属性。

  4. 语音合成和播放:使用 engine.say(text) 方法将文本转换为语音。然后,使用 engine.runAndWait() 方法来播放语音。

  5. 支持多种语音引擎:pyttsx3 支持多种语音合成引擎,如 SAPI5、nsss、espeak 等。可以通过 pyttsx3.init(driverName) 指定要使用的语音引擎。

  6. 获取可用的语音引擎列表:可以使用 pyttsx3.init() 函数的 engine.getProperty('voices') 方法来获取可用的语音引擎列表。可以根据需要选择合适的语音引擎。

  7. 设置语音引擎:可以使用 engine.setProperty('voice', voice_id) 方法来设置要使用的语音引擎。可以将 voice_id 设置为语音引擎列表中的一个元素。

  8. 控制语音合成的事件和回调:pyttsx3 提供了一些事件和回调函数,可以用于控制语音合成的过程。例如,可以使用 engine.connect('started', callback_function) 方法来注册一个回调函数,在语音合成开始时触发。

  9. 异步语音合成:pyttsx3 支持异步语音合成,可以使用 engine.startLoop() 和 engine.endLoop() 方法来控制异步合成的循环。

  10. 关闭语音合成引擎:在程序结束时,可以使用 engine.stop() 和 engine.shutdown() 方法来关闭语音合成引擎。
    在这里插入图片描述

这些是使用 pyttsx3 库实现语音助手时的一些重要知识点。通过了解和掌握这些知识点,你可以更好地使用 pyttsx3 库来实现语音合成的功能。

标签:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

在线投稿:投稿 站长QQ:1888636

后台-插件-广告管理-内容页尾部广告(手机)
关注我们

扫一扫关注我们,了解最新精彩内容

搜索