# AI Voice Generation (Microsoft VibeVoice) na PC (Nvidia RTX) Tvoja RTX kartica je idealna za VibeVoice in sorodne E2/F5-TTS modele, saj podpira **CUDA** in **Flash-Attention 2**, kar omogoča izjemno hitro generiranje. ## 1. Priprava Okolja Potrebuješ CUDA Toolkit in Nvidia Driverje. 1. **Ustvari mapo:** ```powershell mkdir ai_voice_gen cd ai_voice_gen ``` 2. **Python Okolje:** ```powershell python -m venv venv .\venv\Scripts\activate ``` 3. **Namesti PyTorch (CUDA 12.1+):** ```powershell pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 ``` ## 2. Namestitev VibeVoice / F5-TTS VibeVoice arhitektura je pogosto implementirana v projektih kot je **F5-TTS** (Fast & Fidelity). 1. **Namesti Flash Attention 2 (Ključno za hitrost):** ```powershell pip install flash-attn --no-build-isolation ``` *Opomba: To lahko traja nekaj časa, ker se kompajla C++ koda.* 2. **Kloniraj in Namesti:** ```powershell git clone https://github.com/SWivid/F5-TTS.git cd F5-TTS pip install -e . ``` ## 3. Uporaba (Inference) Najlažji način je uporaba skripte `inference.py` iz terminala. 1. **Zaženi:** ```powershell python inference.py --model_path models/VibeVoice-1.5B ``` **Opomba:** Skripta `install_vibevoice_rtx.sh` samodejno popravi težavo z manjkajočo `generate.py` datoteko v modelu. ## Reševanje Težav ### "CUDA Out of Memory" Če imaš kartico z manj VRAM-a (npr. RTX 3060 12GB ali manj): - Poskusi generirati krajše stavke. - Preveri, če obstaja `fp16` (half precision) opcija pri nalaganju modela. ### "Flash Attention not found" Če namestitev `flash-attn` spodleti (pogosto na Windowsih): - Preveri, da imaš nameščen **Visual Studio Build Tools 2022** (C++). - Alternativno uporabi pre-built wheels za tvojo verzijo Pythona in CUDA (išči "flash-attention windows wheels").