AITTS.js 新手指南

你好!这是一个为海豹(SealDice)聊天机器人设计的文本转语音(TTS)插件。它能让你通过简单的文字指令,将文本合成为语音消息发送出来,支持百度大模型等多种自定义的语音合成服务。作为伟大的错误佬的伟大的aiplugin4的语音合成依赖提供ai语音生成,让你的骰娘能发出自定义的语音。

✨ 主要功能

  • 📢 文本转语音:核心功能,将指定的文本转换为语音文件并发送。
  • 🔗 双模式支持:内置了对百度千帆语音大模型的直接支持,同时也支持通过配置连接到其他任何兼容的自定义语音合成API。
  • 🔧 配置灵活:无论是百度模型还是自定义模型,都提供了详细的参数配置项,让你可以精确调整语音的音色、语速等效果。
  • 👍 使用简单:一个 .tts 命令就能轻松调用。

⚙️ 安装与配置

请按照以下步骤来安装和配置插件,让它正常工作。

第一步:安装插件 🛠️

  1. 在海豹 WebUI 的 "JS插件" 界面,上传 AITTS.js 文件即可完成安装。

第二步:进行配置 ⚙️

在海豹机器人的 扩展功能 -> 插件设置 中找到 AITTS,你会看到以下配置项。

首先,你需要选择要使用的 语音合成模型

  • 百度大模型语音合成:如果你有百度千帆的账号和相应的服务,选择此项。
  • 自定义:如果你想使用其他服务商的API(如阿里、讯飞、硅基流动)或自部署的模型(如GPT-SoVITS),请选择此项。

📦 服务商方案推荐

方案一:百度千帆大模型 (特殊支持)

如果语音合成模型选择 百度大模型语音合成,你需要填写以下专属配置项:

  • API密钥 (API Key)

    • 这是什么? 你在百度云应用中获取的 API Key。
    • 怎么填? 将你的 API Key 完整地粘贴进去。
  • SECRET密钥 (Secret Key)

    • 这是什么? 与 API Key 配对的 Secret Key。
    • 怎么填? 将你的 Secret Key 完整地粘贴进去。
  • 百度请求体参数

    • 这是什么? 用于控制语音效果的具体参数,如语速(spd)、音调(pit)、音量(vol)、发音人(per)等。
    • 怎么填? 插件已提供默认值。你可以根据百度官方文档进行修改,每一行是一个独立的参数。

方案二:自定义模型配置

如果语音合成模型选择 自定义,你可以参考以下方案来填写自定义相关的配置项。


硅基流动 (Silicon Flow)

  • 特点:提供多种AI模型服务,按量付费,接入方便,具体模型自行查询。
  • 自定义_API端点:

    [https://api.siliconflow.cn/v1/audio/speech](https://api.siliconflow.cn/v1/audio/speech)
  • 自定义_请求头:

    "Authorization":"Bearer 你的硅基流动API_KEY",
    "Content-Type":"application/json"
  • 自定义_请求体:

    "model":"FunAudioLLM/CosyVoice2-0.5B",
    "input":"{input}",
    "voice":"FunAudioLLM/CosyVoice2-0.5B:alex"

阿里百炼大模型

  • 特点:阿里出品,支持多种场景下的语音合成,声音自然,具体模型自行查询手册。
  • 自定义_API端点:

    [https://dashscope.aliyuncs.com/api/v1/services/aigc/audio-synthesis/synthesis](https://dashscope.aliyuncs.com/api/v1/services/aigc/audio-synthesis/synthesis)
  • 自定义_请求头:

    "Authorization":"Bearer 你的阿里DashScope_API_KEY",
    "Content-Type":"application/json"
  • 自定义_请求体:

    "model":"cosyvoice-v1",
    "input":"{input}",
    "voice":"longxiaochun"

讯飞星火 (需搭配中间件)

  • 特点:API调用流程复杂,需要使用中间件进行桥接。
  • 前置要求:你需要先在你的服务器上安装node.js,运行讯飞TTS中间件,并完成中间件本身的配置。
  • 自定义_API端点:

    • 这里的地址指向你部署的中间件,5678是中间件默认端口,请根据实际情况修改。

      [http://127.0.0.1:5678/tts](http://127.0.0.1:5678/tts)
  • 自定义_请求头:

    "Content-Type":"application/json"
  • 自定义_请求体:

    • 发音人(voice)等参数需要在中间件的配置文件中设置,这里只需传递文本。

      "text":"{input}"

自部署 GPT-SoVITS

  • 特点:完全本地化部署,声音克隆效果强大,可以训练自己的声音模型。
  • 前置要求:你已经成功在本地或服务器上部署了GPT-SoVITS,并已启动其API服务。
  • 自定义_API端点:

    • 这里的地址指向你部署的GPT-SoVITS API,9880是常见端口,请根据实际情况修改。

      [http://127.0.0.1:9880](http://127.0.0.1:9880)
  • 自定义_请求头:

    "Content-Type":"application/json"
  • 自定义_请求体:

    • 详细设置参见GPT-SoVITS手册。

      "text":"{input}",
      "ref_audio_path":"\path\to\your\reference.wav",
      "prompt_text":"你的示例语音内容"

🗣️ 使用方法

配置完成后,就可以让机器人开口说话了!

命令格式

.tts <要合成的文本内容>
  • <要合成的文本内容>:必须填写,即你希望转换成语音的文字。

使用示例

  • 让机器人说“你好”

    .tts 你好,很高兴认识你。
  • 发送一段通知

    .tts 请注意,今晚8点有活动,不要迟到。

机器人会将合成的语音以语音条(Record)的形式发送出来,发送需要配置ffmpeg。