语音生成模型:CosyVoice入门实践
是什么
CosyVoice是阿里开源的一款文字转语音的开源模型,可以支持音色复刻。
怎么用
环境安装
(1)代码下载
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive
因为CosyVoice仓库中还依赖了第三方的Matcha-TTS,所以克隆本地仓库后,还需要下载第三方的。
(2)创建conda环境
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
创建conda环境并安装依赖。如果没有安装cuda工具的话,还需要执行下面命令安装。
sudo apt install nvidia-cuda-toolkit
(3)下载预训练模型
sudo apt update && sudo apt install git-lfs -y
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd
上面的模型文件选择一个即可,需要注意的是因为模型比较大,所以要在本地安装git-lfs才能下载大文件。
测试
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M
执行上面命令后,就可以登录网页输入http://127.0.0.1:50000/进行测试了。