docker镜像已支持x86架构、arm64架构的CPU,支持在国产操作系统上运行。
如果您的电脑还没安装docker,可以按照这里的教程安装:docker安装
安装完后,你需要为这个项目找一个安放配置文件的目录,我们暂且称它为项目目录
,这个目录最好是一个新建的空的目录。
创建好目录后,你需要在项目目录
下面创建data
文件夹和models
文件夹,models
下面还要再创建SenseVoiceSmall
文件夹。
最终目录结构如下所示:
你的项目根目录
├─ data
├─ models
├─ SenseVoiceSmall
你需要下载语音识别的模型文件,因为本项目的默认语音识别用的是本地离线语音识别方案。可通过这个方式下载 跳转到下载语音识别模型文件
下载完后,回到本教程。
用浏览器打开这个链接。
在页面的右侧找到名称为RAW
按钮,在RAW
按钮的旁边,找到下载的图标,点击下载按钮,下载docker-compose.yml
文件。 把文件下载到你的
项目目录
中。
下载完后,回到本教程继续往下。
用浏览器打开这个链接。
在页面的右侧找到名称为RAW
按钮,在RAW
按钮的旁边,找到下载的图标,点击下载按钮,下载config.yaml
文件。 把文件下载到你的
项目目录
下面的data
文件夹中,然后把config.yaml
文件重命名为.config.yaml
。
下载完配置文件后,我们确认一下整个项目目录
里面的文件如下所示:
你的项目根目录
├─ docker-compose.yml
├─ data
├─ .config.yaml
├─ models
├─ SenseVoiceSmall
├─ model.pt
如果你的文件目录结构也是上面的,就继续往下。如果不是,你就再仔细看看是不是漏操作了什么。
接下里,程序还不能直接运行,你需要配置一下,你到底使用的是什么模型。你可以看这个教程: 跳转到配置项目文件
配置完项目文件后,回到本教程继续往下。
打开命令行工具,使用终端
或命令行
工具 进入到你的项目目录
,执行以下命令
docker-compose up -d
执行完后,再执行以下命令,查看日志信息。
docker logs -f xiaozhi-esp32-server
这时,你就要留意日志信息,可以根据这个教程,判断是否成功了。跳转到运行状态确认
如果后期想升级版本,可以这么操作
1、备份好data
文件夹中的.config.yaml
文件,一些关键的配置到时复制到新的.config.yaml
文件里。
请注意是对关键密钥逐个复制,不要直接覆盖。因为新的.config.yaml
文件可能有一些新的配置项,旧的.config.yaml
文件不一定有。
2、执行以下命令
docker stop xiaozhi-esp32-server
docker rm xiaozhi-esp32-server
docker rmi ghcr.nju.edu.cn/xinnan-tech/xiaozhi-esp32-server:latest
3、重新按docker方式部署
开发人员如果不想安装conda
环境,可以使用这种方法管理好依赖。
修改完配置后,打开命令行工具,cd
进入到你的项目目录下,执行以下命令
docker run -it --name xiaozhi-env --restart always --security-opt seccomp:unconfined \
-p 8000:8000 \
-p 8002:8002 \
-v ./:/app \
ccr.ccs.tencentyun.com/kalicyh/poetry:v3.10_latest
然后就和正常开发一样了
在刚刚的打开的终端运行
poetry install --no-root
apt-get update
apt-get install -y --no-install-recommends libopus0 ffmpeg
速度慢可以尝试使用清华镜像
echo "deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bookworm main contrib non-free non-free-firmware" > /etc/apt/sources.list
echo "deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bookworm-updates main contrib non-free non-free-firmware" >> /etc/apt/sources.list
echo "deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bookworm-backports main contrib non-free non-free-firmware" >> /etc/apt/sources.list
echo "deb https://mirrors.tuna.tsinghua.edu.cn/debian-security bookworm-security main contrib non-free non-free-firmware" >> /etc/apt/sources.list
apt-get update
apt-get install -y --no-install-recommends libopus0 ffmpeg
poetry run python app.py
本项目使用conda
管理依赖环境。如果不方便安装conda
,需要根据实际的操作系统安装好libopus
和ffmpeg
。
如果确定使用conda
,则安装好后,开始执行以下命令。
conda remove -n xiaozhi-esp32-server --all -y
conda create -n xiaozhi-esp32-server python=3.10 -y
conda activate xiaozhi-esp32-server
conda install conda-forge::libopus -y
conda install conda-forge::ffmpeg -y
你先要下载本项目源码,源码可以通过git clone
命令下载,如果你不熟悉git clone
命令。
你可以用浏览器打开这个地址https://github.com/xinnan-tech/xiaozhi-esp32-server.git
打开完,找到页面中一个绿色的按钮,写着Code
的按钮,点开它,然后你就看到Download ZIP
的按钮。
点击它,下载本项目源码压缩包。下载到你电脑后,解压它,此时它的名字可能叫xiaozhi-esp32-server-main
你需要把它重命名成xiaozhi-esp32-server
,好了请记住这个目录,我们暂且称它为项目目录
。
# 使用dos或者终端,进入到你的项目目录,执行以下命令
conda activate xiaozhi-esp32-server
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip install -r requirements.txt
你需要下载语音识别的模型文件,因为本项目的默认语音识别用的是本地离线语音识别方案。可通过这个方式下载 跳转到下载语音识别模型文件
下载完后,回到本教程。
接下里,程序还不能直接运行,你需要配置一下,你到底使用的是什么模型。你可以看这个教程: 跳转到配置项目文件
# 确保在本项目的根目录下执行
conda activate xiaozhi-esp32-server
python app.py
这时,你就要留意日志信息,可以根据这个教程,判断是否成功了。跳转到运行状态确认
如果你的项目目录
目录没有data
,你需要创建data
目录。
如果你的data
下面没有.config.yaml
文件,你可以把源码目录下的config.yaml
文件复制一份,重命名为.config.yaml
修改项目目录
下data
目录下的.config.yaml
文件,配置本项目所需的各种参数。默认的LLM使用的是ChatGLMLLM
,你需要配置密钥,因为他们的模型,虽然有免费的,但是仍要去官网注册密钥,才能启动。
默认的TTS使用的是EdgeTTS
,这个无需配置,如果你需要更换成豆包TTS
,则需要配置密钥。
配置说明:这里是各个功能使用的默认组件,例如LLM默认使用ChatGLMLLM
模型。如果需要切换模型,就是改对应的名称。
本项目的默认配置仅是成本最低配置(glm-4-flash
和EdgeTTS
都是免费的),如果需要更优的更快的搭配,需要自己结合部署环境切换各组件的使用。
selected_module:
ASR: FunASR
VAD: SileroVAD
LLM: ChatGLMLLM
TTS: EdgeTTS
比如修改LLM
使用的组件,就看本项目支持哪些LLM
API接口,当前支持的是openai
、dify
。欢迎验证和支持更多LLM平台的接口。
使用时,在selected_module
修改成对应的如下LLM配置的名称:
LLM:
DeepSeekLLM:
type: openai
...
ChatGLMLLM:
type: openai
...
DifyLLM:
type: dify
...
有些服务,比如如果你使用Dify
、豆包的TTS
,是需要密钥的,记得在配置文件加上哦!
本项目语音识别模型,默认使用SenseVoiceSmall
模型,进行语音转文字。因为模型较大,需要独立下载,下载后把model.pt
文件放在model/SenseVoiceSmall
目录下。下面两个下载路线任选一个。
- 线路一:阿里魔塔下载SenseVoiceSmall
- 线路二:百度网盘下载SenseVoiceSmall 提取码:
qvna
如果你能看到,类似以下日志,则是本项目服务启动成功的标志。
25-02-23 12:01:09[core.websocket_server] - INFO - Server is running at ws://xxx.xx.xx.xx:8000
25-02-23 12:01:09[core.websocket_server] - INFO - =======上面的地址是websocket协议地址,请勿用浏览器访问=======
正常来说,如果您是通过源码运行本项目,日志会有你的接口地址信息。 但是如果你用docker部署,那么你的日志里给出的接口地址信息就不是真实的接口地址。
最正确的方法,是根据电脑的局域网IP来确定你的接口地址。
如果你的电脑的局域网IP比如是192.168.1.25
,那么你的接口地址就是:ws://192.168.1.25:8000
。
这个信息很有用的,后面编译esp32固件
需要用到。
接下来,你就可以开始 编译esp32固件了。