AITTS.js 新手指南
你好!这是一个为海豹(SealDice)聊天机器人设计的文本转语音(TTS)插件。它能让你通过简单的文字指令,将文本合成为语音消息发送出来,支持百度大模型等多种自定义的语音合成服务。作为伟大的错误佬的伟大的aiplugin4的语音合成依赖提供ai语音生成,让你的骰娘能发出自定义的语音。
✨ 主要功能
- 📢 文本转语音:核心功能,将指定的文本转换为语音文件并发送。
- 🔗 双模式支持:内置了对百度千帆语音大模型的直接支持,同时也支持通过配置连接到其他任何兼容的自定义语音合成API。
- 🔧 配置灵活:无论是百度模型还是自定义模型,都提供了详细的参数配置项,让你可以精确调整语音的音色、语速等效果。
- 👍 使用简单:一个
.tts
命令就能轻松调用。
⚙️ 安装与配置
请按照以下步骤来安装和配置插件,让它正常工作。
第一步:安装插件 🛠️
- 在海豹 WebUI 的 "JS插件" 界面,上传
AITTS.js
文件即可完成安装。
第二步:进行配置 ⚙️
在海豹机器人的 扩展功能
-> 插件设置
中找到 AITTS
,你会看到以下配置项。
首先,你需要选择要使用的 语音合成模型:
- 百度大模型语音合成:如果你有百度千帆的账号和相应的服务,选择此项。
- 自定义:如果你想使用其他服务商的API(如阿里、讯飞、硅基流动)或自部署的模型(如GPT-SoVITS),请选择此项。
📦 服务商方案推荐
方案一:百度千帆大模型 (特殊支持)
如果语音合成模型选择 百度大模型语音合成
,你需要填写以下专属配置项:
API密钥 (API Key)
- 这是什么? 你在百度云应用中获取的 API Key。
- 怎么填? 将你的 API Key 完整地粘贴进去。
SECRET密钥 (Secret Key)
- 这是什么? 与 API Key 配对的 Secret Key。
- 怎么填? 将你的 Secret Key 完整地粘贴进去。
百度请求体参数
- 这是什么? 用于控制语音效果的具体参数,如语速(spd)、音调(pit)、音量(vol)、发音人(per)等。
- 怎么填? 插件已提供默认值。你可以根据百度官方文档进行修改,每一行是一个独立的参数。
方案二:自定义模型配置
如果语音合成模型选择 自定义
,你可以参考以下方案来填写自定义相关的配置项。
硅基流动 (Silicon Flow)
- 特点:提供多种AI模型服务,按量付费,接入方便,具体模型自行查询。
自定义_API端点:
[https://api.siliconflow.cn/v1/audio/speech](https://api.siliconflow.cn/v1/audio/speech)
自定义_请求头:
"Authorization":"Bearer 你的硅基流动API_KEY", "Content-Type":"application/json"
自定义_请求体:
"model":"FunAudioLLM/CosyVoice2-0.5B", "input":"{input}", "voice":"FunAudioLLM/CosyVoice2-0.5B:alex"
阿里百炼大模型
- 特点:阿里出品,支持多种场景下的语音合成,声音自然,具体模型自行查询手册。
自定义_API端点:
[https://dashscope.aliyuncs.com/api/v1/services/aigc/audio-synthesis/synthesis](https://dashscope.aliyuncs.com/api/v1/services/aigc/audio-synthesis/synthesis)
自定义_请求头:
"Authorization":"Bearer 你的阿里DashScope_API_KEY", "Content-Type":"application/json"
自定义_请求体:
"model":"cosyvoice-v1", "input":"{input}", "voice":"longxiaochun"
讯飞星火 (需搭配中间件)
- 特点:API调用流程复杂,需要使用中间件进行桥接。
- 前置要求:你需要先在你的服务器上安装node.js,运行讯飞TTS中间件,并完成中间件本身的配置。
自定义_API端点:
这里的地址指向你部署的中间件,
5678
是中间件默认端口,请根据实际情况修改。[http://127.0.0.1:5678/tts](http://127.0.0.1:5678/tts)
自定义_请求头:
"Content-Type":"application/json"
自定义_请求体:
发音人(voice)等参数需要在中间件的配置文件中设置,这里只需传递文本。
"text":"{input}"
自部署 GPT-SoVITS
- 特点:完全本地化部署,声音克隆效果强大,可以训练自己的声音模型。
- 前置要求:你已经成功在本地或服务器上部署了GPT-SoVITS,并已启动其API服务。
自定义_API端点:
这里的地址指向你部署的GPT-SoVITS API,
9880
是常见端口,请根据实际情况修改。[http://127.0.0.1:9880](http://127.0.0.1:9880)
自定义_请求头:
"Content-Type":"application/json"
自定义_请求体:
详细设置参见GPT-SoVITS手册。
"text":"{input}", "ref_audio_path":"\path\to\your\reference.wav", "prompt_text":"你的示例语音内容"
🗣️ 使用方法
配置完成后,就可以让机器人开口说话了!
命令格式
.tts <要合成的文本内容>
<要合成的文本内容>
:必须填写,即你希望转换成语音的文字。
使用示例
让机器人说“你好”
.tts 你好,很高兴认识你。
发送一段通知
.tts 请注意,今晚8点有活动,不要迟到。
机器人会将合成的语音以语音条(Record)的形式发送出来,发送需要配置ffmpeg。