Skip to content

Latest commit

 

History

History
277 lines (187 loc) · 9.94 KB

Deployment.md

File metadata and controls

277 lines (187 loc) · 9.94 KB

方式一:docker快速部署

docker镜像已支持x86架构、arm64架构的CPU,支持在国产操作系统上运行。

1. 安装docker

如果您的电脑还没安装docker,可以按照这里的教程安装:docker安装

2. 创建目录

安装完后,你需要为这个项目找一个安放配置文件的目录,我们暂且称它为项目目录,这个目录最好是一个新建的空的目录。

创建好目录后,你需要在项目目录下面创建data文件夹和models文件夹,models下面还要再创建SenseVoiceSmall文件夹。

最终目录结构如下所示:

你的项目根目录
  ├─ data
  ├─ models
     ├─ SenseVoiceSmall

4. 下载语音识别模型文件

你需要下载语音识别的模型文件,因为本项目的默认语音识别用的是本地离线语音识别方案。可通过这个方式下载 跳转到下载语音识别模型文件

下载完后,回到本教程。

3. 下载docker-compose.yaml

用浏览器打开这个链接

在页面的右侧找到名称为RAW按钮,在RAW按钮的旁边,找到下载的图标,点击下载按钮,下载docker-compose.yml文件。 把文件下载到你的 项目目录中。

下载完后,回到本教程继续往下。

3. 下载配置文件

用浏览器打开这个链接

在页面的右侧找到名称为RAW按钮,在RAW按钮的旁边,找到下载的图标,点击下载按钮,下载config.yaml文件。 把文件下载到你的 项目目录下面的data文件夹中,然后把config.yaml文件重命名为.config.yaml

下载完配置文件后,我们确认一下整个项目目录里面的文件如下所示:

你的项目根目录
  ├─ docker-compose.yml
  ├─ data
    ├─ .config.yaml
  ├─ models
     ├─ SenseVoiceSmall
       ├─ model.pt

如果你的文件目录结构也是上面的,就继续往下。如果不是,你就再仔细看看是不是漏操作了什么。

4. 配置项目文件

接下里,程序还不能直接运行,你需要配置一下,你到底使用的是什么模型。你可以看这个教程: 跳转到配置项目文件

配置完项目文件后,回到本教程继续往下。

5. 执行docker命令

打开命令行工具,使用终端命令行工具 进入到你的项目目录,执行以下命令

docker-compose up -d

执行完后,再执行以下命令,查看日志信息。

docker logs -f xiaozhi-esp32-server

这时,你就要留意日志信息,可以根据这个教程,判断是否成功了。跳转到运行状态确认

6.版本升级操作

如果后期想升级版本,可以这么操作

1、备份好data文件夹中的.config.yaml文件,一些关键的配置到时复制到新的.config.yaml文件里。 请注意是对关键密钥逐个复制,不要直接覆盖。因为新的.config.yaml文件可能有一些新的配置项,旧的.config.yaml文件不一定有。

2、执行以下命令

docker stop xiaozhi-esp32-server
docker rm xiaozhi-esp32-server
docker rmi ghcr.nju.edu.cn/xinnan-tech/xiaozhi-esp32-server:latest

3、重新按docker方式部署

方式二:借助Docker环境运行部署

开发人员如果不想安装conda环境,可以使用这种方法管理好依赖。

1.克隆项目

4.运行docker

修改完配置后,打开命令行工具,cd进入到你的项目目录下,执行以下命令

docker run -it --name xiaozhi-env --restart always --security-opt seccomp:unconfined \
  -p 8000:8000 \
  -p 8002:8002 \
  -v ./:/app \
  ccr.ccs.tencentyun.com/kalicyh/poetry:v3.10_latest

然后就和正常开发一样了

5.安装依赖

在刚刚的打开的终端运行

poetry install --no-root
apt-get update
apt-get install -y --no-install-recommends libopus0 ffmpeg

速度慢可以尝试使用清华镜像

echo "deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bookworm main contrib non-free non-free-firmware" > /etc/apt/sources.list
echo "deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bookworm-updates main contrib non-free non-free-firmware" >> /etc/apt/sources.list
echo "deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bookworm-backports main contrib non-free non-free-firmware" >> /etc/apt/sources.list
echo "deb https://mirrors.tuna.tsinghua.edu.cn/debian-security bookworm-security main contrib non-free non-free-firmware" >> /etc/apt/sources.list
apt-get update
apt-get install -y --no-install-recommends libopus0 ffmpeg

6.运行项目

poetry run python app.py

方式三:本地源码运行

1.安装基础环境

本项目使用conda管理依赖环境。如果不方便安装conda,需要根据实际的操作系统安装好libopusffmpeg。 如果确定使用conda,则安装好后,开始执行以下命令。

conda remove -n xiaozhi-esp32-server --all -y
conda create -n xiaozhi-esp32-server python=3.10 -y
conda activate xiaozhi-esp32-server
conda install conda-forge::libopus -y
conda install conda-forge::ffmpeg -y

2.安装本项目依赖

你先要下载本项目源码,源码可以通过git clone命令下载,如果你不熟悉git clone命令。

你可以用浏览器打开这个地址https://github.com/xinnan-tech/xiaozhi-esp32-server.git

打开完,找到页面中一个绿色的按钮,写着Code的按钮,点开它,然后你就看到Download ZIP的按钮。

点击它,下载本项目源码压缩包。下载到你电脑后,解压它,此时它的名字可能叫xiaozhi-esp32-server-main 你需要把它重命名成xiaozhi-esp32-server,好了请记住这个目录,我们暂且称它为项目目录

# 使用dos或者终端,进入到你的项目目录,执行以下命令
conda activate xiaozhi-esp32-server
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip install -r requirements.txt

3.下载语音识别模型文件

你需要下载语音识别的模型文件,因为本项目的默认语音识别用的是本地离线语音识别方案。可通过这个方式下载 跳转到下载语音识别模型文件

下载完后,回到本教程。

4.配置项目文件

接下里,程序还不能直接运行,你需要配置一下,你到底使用的是什么模型。你可以看这个教程: 跳转到配置项目文件

5.运行项目

# 确保在本项目的根目录下执行
conda activate xiaozhi-esp32-server
python app.py

这时,你就要留意日志信息,可以根据这个教程,判断是否成功了。跳转到运行状态确认

汇总

配置项目

如果你的项目目录目录没有data,你需要创建data目录。 如果你的data下面没有.config.yaml文件,你可以把源码目录下的config.yaml文件复制一份,重命名为.config.yaml

修改项目目录data目录下的.config.yaml文件,配置本项目所需的各种参数。默认的LLM使用的是ChatGLMLLM ,你需要配置密钥,因为他们的模型,虽然有免费的,但是仍要去官网注册密钥,才能启动。 默认的TTS使用的是EdgeTTS,这个无需配置,如果你需要更换成豆包TTS,则需要配置密钥。

配置说明:这里是各个功能使用的默认组件,例如LLM默认使用ChatGLMLLM模型。如果需要切换模型,就是改对应的名称。 本项目的默认配置仅是成本最低配置(glm-4-flashEdgeTTS都是免费的),如果需要更优的更快的搭配,需要自己结合部署环境切换各组件的使用。

selected_module:
  ASR: FunASR
  VAD: SileroVAD
  LLM: ChatGLMLLM
  TTS: EdgeTTS

比如修改LLM使用的组件,就看本项目支持哪些LLM API接口,当前支持的是openaidify。欢迎验证和支持更多LLM平台的接口。 使用时,在selected_module修改成对应的如下LLM配置的名称:

LLM:
  DeepSeekLLM:
    type: openai
    ...
  ChatGLMLLM:
    type: openai
    ...
  DifyLLM:
    type: dify
    ...

有些服务,比如如果你使用Dify豆包的TTS,是需要密钥的,记得在配置文件加上哦!

模型文件

本项目语音识别模型,默认使用SenseVoiceSmall模型,进行语音转文字。因为模型较大,需要独立下载,下载后把model.pt 文件放在model/SenseVoiceSmall 目录下。下面两个下载路线任选一个。

运行状态确认

如果你能看到,类似以下日志,则是本项目服务启动成功的标志。

25-02-23 12:01:09[core.websocket_server] - INFO - Server is running at ws://xxx.xx.xx.xx:8000
25-02-23 12:01:09[core.websocket_server] - INFO - =======上面的地址是websocket协议地址,请勿用浏览器访问=======

正常来说,如果您是通过源码运行本项目,日志会有你的接口地址信息。 但是如果你用docker部署,那么你的日志里给出的接口地址信息就不是真实的接口地址。

最正确的方法,是根据电脑的局域网IP来确定你的接口地址。 如果你的电脑的局域网IP比如是192.168.1.25,那么你的接口地址就是:ws://192.168.1.25:8000

这个信息很有用的,后面编译esp32固件需要用到。

接下来,你就可以开始 编译esp32固件了。