Dify实战 - 语音转文本

视频详细介绍了在Dify平台中配置语音转文本功能，包括前端设置、模型供应商配置及工作流节点搭建。

UP主: 考拉的Ai树屋 · 时长: 5:11 · 🔗 B站原视频

发布: 2024-12-29 · 收录: 2025-06-14

标签: Dify · AI工具 · 语音转文本 · 工作流 · Whisper

创建应用与基础设置

最近知识星球的很多小伙伴反映在 Dify 当中不知道如何去使用语音转文本和文本转语音的功能。今天我就来带领大家去学习一下，在 Dify 当中如何使用语音转文本或者文本转语音。

我们首先去创建一个空白应用，非常简单的一个聊天助手，基本编排名字我们就设为“语音”，点击创建。创建之后，我们在右上角的这里，首先选择一个大语言模型，我这里使用的是 GPT-4o mini。

开启前端语音输入功能

很多小伙伴反映在这个聊天框的旁边没有语音输入的按钮。很简单，我们只需要点击下方的管理功能，将这里的文本转语音和语音转文字给打开。打开之后，我们就可以看到在聊天框的右侧出现了一个语音的图标。我们点击之后就可以对它进行讲话输入。

配置语音模型供应商

小伙伴们的第二个问题又来了，当他们去点击语音输入的时候，Dify 的页面会报错。我们去看一下报什么错：“今天吃什么？”可以看到这里显示 speech to text is not enabled。这个问题主要是因为我们没有在 Dify 当中去配置文本转语音或者语音转文本的大模型。

应该如何配置呢？问题很简单，我们首先去 Dify 右上角的设置里面，打开模型供应商。我们需要首先去添加文本转语音或者语音转文本的大模型。例如我这里是添加了微软的 Azure OpenAI Service，在这里可以看到，我添加的是 Whisper 和 TTS-HD 两个语音转文本和文本转语音的大模型。

添加完成之后，我们在右上角的系统模型设置里面，这里的语音转文本模型就是选择我们刚刚添加的 Whisper，以及文本转语音模型选择的是 TTS-HD。大家可以选择自己添加的模型供应商里面的模型，点击保存即可。

测试前端语音转文本

保存之后我们再回到工作流当中，点击发布，点击更新，再去进行语音输入：“今天吃什么？”可以看到语音转文本就生效了。我刚刚说的这句话“今天吃什么”已经被转换成了文本。点击发送，大语言模型就对我的问题进行了回答。是不是非常的简单？我们在 Dify 这个前端页面实现了语音转文本的功能。

在工作流中搭建语音转文本节点

很多小伙伴又有了新的问题，如何在 Dify 工作流当中去实现文本转语音或者语音转文本呢？那我们就去搭建一个工作流。这里我已经搭建好了，例如是语音转文本，我们点击之后进去。

整个工作流的编排非常的简单，第一个节点就是开始节点。开始节点的话，我们这里添加一个输入字段，就是 audio。audio 的话选择音频文件的类型，我们可以在本机上传一个 mp3 的文件，给这个工作流去识别成文本。

点击保存之后，我们第二个节点就非常的简单。我们右键点击添加节点，并不是选择大语言模型这个节点。很多小伙伴是选择了大语言模型这个节点，然后在大语言模型节点里面的模型，找不到刚刚添加的文本转语音或者语音转文本的大模型。这是因为我们不应该选择大语言模型的节点，而是应该选择右击添加节点，工具里面的这两个 audio 下面的 text to speech 或者 speech to text。

我这里实现的是语音转文本，所以说我选的是 speech to text。选择之后，这里有一个输入变量，输入变量就是我们需要转换的音频文件。下边选择的就是语音转文本的大模型，就是我这里设置的 Whisper。最后一个节点就是直接回复了。

运行与测试工作流

点击发布之后，我们去演示一下，从本地上传一个 mp3 文件，能不能把它转换成文本。我这里上传了一个英文课本的语音，我们直接输入一个开始，点击发送，整个工作流就开始运行了。

稍等片刻，这个语音文件稍微有些大。可以看到也是很快，工作流就将我们的语音文件转换成了我们所需要的文本。是不是非常的简单呢？同样文本转语音，我们只需要将第二个节点给更改了就可以了，大家可以自行去实现一下。