1.9 KiB
AI Voice Generation (Microsoft VibeVoice) na PC (Nvidia RTX)
Tvoja RTX kartica je idealna za VibeVoice in sorodne E2/F5-TTS modele, saj podpira CUDA in Flash-Attention 2, kar omogoča izjemno hitro generiranje.
1. Priprava Okolja
Potrebuješ CUDA Toolkit in Nvidia Driverje.
-
Ustvari mapo:
mkdir ai_voice_gen cd ai_voice_gen -
Python Okolje:
python -m venv venv .\venv\Scripts\activate -
Namesti PyTorch (CUDA 12.1+):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
2. Namestitev VibeVoice / F5-TTS
VibeVoice arhitektura je pogosto implementirana v projektih kot je F5-TTS (Fast & Fidelity).
-
Namesti Flash Attention 2 (Ključno za hitrost):
pip install flash-attn --no-build-isolationOpomba: To lahko traja nekaj časa, ker se kompajla C++ koda.
-
Kloniraj in Namesti:
git clone https://github.com/SWivid/F5-TTS.git cd F5-TTS pip install -e .
3. Uporaba (Inference)
Najlažji način je uporaba skripte inference.py iz terminala.
- Zaženi:
python inference.py --model_path models/VibeVoice-1.5B
Opomba: Skripta install_vibevoice_rtx.sh samodejno popravi težavo z manjkajočo generate.py datoteko v modelu.
Reševanje Težav
"CUDA Out of Memory"
Če imaš kartico z manj VRAM-a (npr. RTX 3060 12GB ali manj):
- Poskusi generirati krajše stavke.
- Preveri, če obstaja
fp16(half precision) opcija pri nalaganju modela.
"Flash Attention not found"
Če namestitev flash-attn spodleti (pogosto na Windowsih):
- Preveri, da imaš nameščen Visual Studio Build Tools 2022 (C++).
- Alternativno uporabi pre-built wheels za tvojo verzijo Pythona in CUDA (išči "flash-attention windows wheels").