Files
novafarma/ai_voice_gen/rtx.md

1.9 KiB

AI Voice Generation (Microsoft VibeVoice) na PC (Nvidia RTX)

Tvoja RTX kartica je idealna za VibeVoice in sorodne E2/F5-TTS modele, saj podpira CUDA in Flash-Attention 2, kar omogoča izjemno hitro generiranje.

1. Priprava Okolja

Potrebuješ CUDA Toolkit in Nvidia Driverje.

  1. Ustvari mapo:

    mkdir ai_voice_gen
    cd ai_voice_gen
    
  2. Python Okolje:

    python -m venv venv
    .\venv\Scripts\activate
    
  3. Namesti PyTorch (CUDA 12.1+):

    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
    

2. Namestitev VibeVoice / F5-TTS

VibeVoice arhitektura je pogosto implementirana v projektih kot je F5-TTS (Fast & Fidelity).

  1. Namesti Flash Attention 2 (Ključno za hitrost):

    pip install flash-attn --no-build-isolation
    

    Opomba: To lahko traja nekaj časa, ker se kompajla C++ koda.

  2. Kloniraj in Namesti:

    git clone https://github.com/SWivid/F5-TTS.git
    cd F5-TTS
    pip install -e .
    

3. Uporaba (Inference)

Najlažji način je uporaba skripte inference.py iz terminala.

  1. Zaženi:
    python inference.py --model_path models/VibeVoice-1.5B
    

Opomba: Skripta install_vibevoice_rtx.sh samodejno popravi težavo z manjkajočo generate.py datoteko v modelu.

Reševanje Težav

"CUDA Out of Memory"

Če imaš kartico z manj VRAM-a (npr. RTX 3060 12GB ali manj):

  • Poskusi generirati krajše stavke.
  • Preveri, če obstaja fp16 (half precision) opcija pri nalaganju modela.

"Flash Attention not found"

Če namestitev flash-attn spodleti (pogosto na Windowsih):

  • Preveri, da imaš nameščen Visual Studio Build Tools 2022 (C++).
  • Alternativno uporabi pre-built wheels za tvojo verzijo Pythona in CUDA (išči "flash-attention windows wheels").