novafarma/ai_voice_gen/rtx.md

# AI Voice Generation (Microsoft VibeVoice) na PC (Nvidia RTX)

Tvoja RTX kartica je idealna za VibeVoice in sorodne E2/F5-TTS modele, saj podpira **CUDA** in **Flash-Attention 2**, kar omogoča izjemno hitro generiranje.

## 1. Priprava Okolja

Potrebuješ CUDA Toolkit in Nvidia Driverje.

1.  **Ustvari mapo:**
    ```powershell
    mkdir ai_voice_gen
    cd ai_voice_gen
    ```

2.  **Python Okolje:**
    ```powershell
    python -m venv venv
    .\venv\Scripts\activate
    ```

3.  **Namesti PyTorch (CUDA 12.1+):**
    ```powershell
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
    ```

## 2. Namestitev VibeVoice / F5-TTS

VibeVoice arhitektura je pogosto implementirana v projektih kot je **F5-TTS** (Fast & Fidelity).

1.  **Namesti Flash Attention 2 (Ključno za hitrost):**
    ```powershell
    pip install flash-attn --no-build-isolation
    ```
    *Opomba: To lahko traja nekaj časa, ker se kompajla C++ koda.*

2.  **Kloniraj in Namesti:**
    ```powershell
    git clone https://github.com/SWivid/F5-TTS.git
    cd F5-TTS
    pip install -e .
    ```

## 3. Uporaba (Inference)

Najlažji način je uporaba skripte `inference.py` iz terminala.

1.  **Zaženi:**
    ```powershell
    python inference.py --model_path models/VibeVoice-1.5B
    ```

**Opomba:** Skripta `install_vibevoice_rtx.sh` samodejno popravi težavo z manjkajočo `generate.py` datoteko v modelu.

## Reševanje Težav

### "CUDA Out of Memory"
Če imaš kartico z manj VRAM-a (npr. RTX 3060 12GB ali manj):
- Poskusi generirati krajše stavke.
- Preveri, če obstaja `fp16` (half precision) opcija pri nalaganju modela.

### "Flash Attention not found"
Če namestitev `flash-attn` spodleti (pogosto na Windowsih):
- Preveri, da imaš nameščen **Visual Studio Build Tools 2022** (C++).
- Alternativno uporabi pre-built wheels za tvojo verzijo Pythona in CUDA (išči "flash-attention windows wheels").