Dify实战 - 语音转文本
视频详细介绍了在Dify平台中配置语音转文本功能,包括前端设置、模型供应商配置及工作流节点搭建。
UP主: 考拉的Ai树屋 · 时长: 5:11 · 🔗 B站原视频
标签: Dify · AI工具 · 语音转文本 · 工作流 · Whisper
创建应用与基础设置
最近知识星球的很多小伙伴反映在 Dify 当中不知道如何去使用语音转文本和文本转语音的功能。今天我就来带领大家去学习一下,在 Dify 当中如何使用语音转文本或者文本转语音。
我们首先去创建一个空白应用,非常简单的一个聊天助手,基本编排名字我们就设为“语音”,点击创建。创建之后,我们在右上角的这里,首先选择一个大语言模型,我这里使用的是 GPT-4o mini。
开启前端语音输入功能
很多小伙伴反映在这个聊天框的旁边没有语音输入的按钮。很简单,我们只需要点击下方的管理功能,将这里的文本转语音和语音转文字给打开。打开之后,我们就可以看到在聊天框的右侧出现了一个语音的图标。我们点击之后就可以对它进行讲话输入。
配置语音模型供应商
小伙伴们的第二个问题又来了,当他们去点击语音输入的时候,Dify 的页面会报错。我们去看一下报什么错:“今天吃什么?”可以看到这里显示 speech to text is not enabled。这个问题主要是因为我们没有在 Dify 当中去配置文本转语音或者语音转文本的大模型。
应该如何配置呢?问题很简单,我们首先去 Dify 右上角的设置里面,打开模型供应商。我们需要首先去添加文本转语音或者语音转文本的大模型。例如我这里是添加了微软的 Azure OpenAI Service,在这里可以看到,我添加的是 Whisper 和 TTS-HD 两个语音转文本和文本转语音的大模型。
添加完成之后,我们在右上角的系统模型设置里面,这里的语音转文本模型就是选择我们刚刚添加的 Whisper,以及文本转语音模型选择的是 TTS-HD。大家可以选择自己添加的模型供应商里面的模型,点击保存即可。
测试前端语音转文本
保存之后我们再回到工作流当中,点击发布,点击更新,再去进行语音输入:“今天吃什么?”可以看到语音转文本就生效了。我刚刚说的这句话“今天吃什么”已经被转换成了文本。点击发送,大语言模型就对我的问题进行了回答。是不是非常的简单?我们在 Dify 这个前端页面实现了语音转文本的功能。
在工作流中搭建语音转文本节点
很多小伙伴又有了新的问题,如何在 Dify 工作流当中去实现文本转语音或者语音转文本呢?那我们就去搭建一个工作流。这里我已经搭建好了,例如是语音转文本,我们点击之后进去。
整个工作流的编排非常的简单,第一个节点就是开始节点。开始节点的话,我们这里添加一个输入字段,就是 audio。audio 的话选择音频文件的类型,我们可以在本机上传一个 mp3 的文件,给这个工作流去识别成文本。
点击保存之后,我们第二个节点就非常的简单。我们右键点击添加节点,并不是选择大语言模型这个节点。很多小伙伴是选择了大语言模型这个节点,然后在大语言模型节点里面的模型,找不到刚刚添加的文本转语音或者语音转文本的大模型。这是因为我们不应该选择大语言模型的节点,而是应该选择右击添加节点,工具里面的这两个 audio 下面的 text to speech 或者 speech to text。
我这里实现的是语音转文本,所以说我选的是 speech to text。选择之后,这里有一个输入变量,输入变量就是我们需要转换的音频文件。下边选择的就是语音转文本的大模型,就是我这里设置的 Whisper。最后一个节点就是直接回复了。
运行与测试工作流
点击发布之后,我们去演示一下,从本地上传一个 mp3 文件,能不能把它转换成文本。我这里上传了一个英文课本的语音,我们直接输入一个开始,点击发送,整个工作流就开始运行了。
稍等片刻,这个语音文件稍微有些大。可以看到也是很快,工作流就将我们的语音文件转换成了我们所需要的文本。是不是非常的简单呢?同样文本转语音,我们只需要将第二个节点给更改了就可以了,大家可以自行去实现一下。