语音生成模型:CosyVoice入门实践

🕒 2025-09-26 📁 Ai应用 👤 laumy 🔥 12 热度

是什么

CosyVoice是阿里开源的一款文字转语音的开源模型,可以支持音色复刻。

怎么用

环境安装

(1)代码下载

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

cd CosyVoice
git submodule update --init --recursive

因为CosyVoice仓库中还依赖了第三方的Matcha-TTS,所以克隆本地仓库后,还需要下载第三方的。

(2)创建conda环境

conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

创建conda环境并安装依赖。如果没有安装cuda工具的话,还需要执行下面命令安装。

sudo apt install nvidia-cuda-toolkit

(3)下载预训练模型

sudo apt update && sudo apt install git-lfs -y
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

上面的模型文件选择一个即可,需要注意的是因为模型比较大,所以要在本地安装git-lfs才能下载大文件。

测试

python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

执行上面命令后,就可以登录网页输入http://127.0.0.1:50000/进行测试了。

发表你的看法

\t