Add generated VibeVoice audio assets, dialogue JSON, and updated PrologueScene
This commit is contained in:
64
ai_voice_gen/rtx.md
Normal file
64
ai_voice_gen/rtx.md
Normal file
@@ -0,0 +1,64 @@
|
||||
# AI Voice Generation (Microsoft VibeVoice) na PC (Nvidia RTX)
|
||||
|
||||
Tvoja RTX kartica je idealna za VibeVoice in sorodne E2/F5-TTS modele, saj podpira **CUDA** in **Flash-Attention 2**, kar omogoča izjemno hitro generiranje.
|
||||
|
||||
## 1. Priprava Okolja
|
||||
|
||||
Potrebuješ CUDA Toolkit in Nvidia Driverje.
|
||||
|
||||
1. **Ustvari mapo:**
|
||||
```powershell
|
||||
mkdir ai_voice_gen
|
||||
cd ai_voice_gen
|
||||
```
|
||||
|
||||
2. **Python Okolje:**
|
||||
```powershell
|
||||
python -m venv venv
|
||||
.\venv\Scripts\activate
|
||||
```
|
||||
|
||||
3. **Namesti PyTorch (CUDA 12.1+):**
|
||||
```powershell
|
||||
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
|
||||
```
|
||||
|
||||
## 2. Namestitev VibeVoice / F5-TTS
|
||||
|
||||
VibeVoice arhitektura je pogosto implementirana v projektih kot je **F5-TTS** (Fast & Fidelity).
|
||||
|
||||
1. **Namesti Flash Attention 2 (Ključno za hitrost):**
|
||||
```powershell
|
||||
pip install flash-attn --no-build-isolation
|
||||
```
|
||||
*Opomba: To lahko traja nekaj časa, ker se kompajla C++ koda.*
|
||||
|
||||
2. **Kloniraj in Namesti:**
|
||||
```powershell
|
||||
git clone https://github.com/SWivid/F5-TTS.git
|
||||
cd F5-TTS
|
||||
pip install -e .
|
||||
```
|
||||
|
||||
## 3. Uporaba (Inference)
|
||||
|
||||
Najlažji način je uporaba skripte `inference.py` iz terminala.
|
||||
|
||||
1. **Zaženi:**
|
||||
```powershell
|
||||
python inference.py --model_path models/VibeVoice-1.5B
|
||||
```
|
||||
|
||||
**Opomba:** Skripta `install_vibevoice_rtx.sh` samodejno popravi težavo z manjkajočo `generate.py` datoteko v modelu.
|
||||
|
||||
## Reševanje Težav
|
||||
|
||||
### "CUDA Out of Memory"
|
||||
Če imaš kartico z manj VRAM-a (npr. RTX 3060 12GB ali manj):
|
||||
- Poskusi generirati krajše stavke.
|
||||
- Preveri, če obstaja `fp16` (half precision) opcija pri nalaganju modela.
|
||||
|
||||
### "Flash Attention not found"
|
||||
Če namestitev `flash-attn` spodleti (pogosto na Windowsih):
|
||||
- Preveri, da imaš nameščen **Visual Studio Build Tools 2022** (C++).
|
||||
- Alternativno uporabi pre-built wheels za tvojo verzijo Pythona in CUDA (išči "flash-attention windows wheels").
|
||||
Reference in New Issue
Block a user