Talk-llama-fast с поддержкой wav2lip:
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации при обнаружении речи.
- команды: Google, стоп, переделай, удали всё, позови.
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Работает на 3060 12 GB,
Nvidia на 8 GB, скорее всего, тоже хватит.
Из-за записи экрана есть небольшие задержки.
Без записи и на английском языке полная задержка от голосовой команды до видео ответа - всего 1.5 секунды!
Код, exe, инструкция:
github.com/Mozer/talk-llama-fast
t.me/tensorbanana
Негізгі бет talk-llama-fast wav2lip - неформальный видео-ассистент на русском
Пікірлер: 769