Extrem später Start wieder. So geht das nicht weiter. Kurz Gestrüpp schnippeln, joggen und kochen. Auch ein Anruf mit einem alten Kumpel. Die meiste Zeit heute ging aber für TTS rauf.
Ich installierte mir die kokoro-fastapi. Da ging wieder viel SSD Platz mit allerhand libs weg. Die ONNX Modelle wurden in der jetzigen Version nicht unterstützt. Dafür ein recht brauchbares Web Interface zum Testen (nur in Chrome). Im ONNX Hugginface Repo gab’s ein paar Beispiele zur Nutzung und mit Gemini baute ich einen API Server und dann auch noch das CLI Interface sogar mit wav zu mp3 Konvertierung. Die Qualität von kokoro ist echt nett, für die Geschwindigkeit und eben kostenlos. Es fehlt aber die Emotion…
Die ganze Arbeit war daher etwas nutzlos, denn nach einigen Tests mit meine Untertitel Derivaten, ist die Sprachausgabe wirklich zu monoton und langweilig. Spanische Namen usw. werden falsch ausgesprochen. Der Phonemizer weiß es nicht besser, man kann eben keine OpenAI Qualität für lau erwarten, wobei ich schon an ein „Schnäppchen“ dachte.
Das „Dia“ Modell für Konversation mit zwei Leuten, braucht um die 7GB VRAM und eben CUDA. Die Qualität dort ist um einiges cooler, auch mit Emotionen bissel aber eben nicht verfügbar. Mal sehen, wann ich Cloud Zugang bekomme, wenn das mal angeboten wird.
In der Nacht versuchte ich mit Prompts die Texte besser in den Griff zu bekommen. Die vielen Untertitel liest man schneller als die 160-180 WPM bei Sprache sein sollten. Ich muss also auch die Voiceovers beschränken, wie schon die Subs. Sollte gehen.
Ziel ist es, die Texte/WAVs automatisch zu generieren und in DaVinci Resolve zu platzieren. Mit den Markern komme ich gut zurecht. Das sollte also alles schon klappen. Insgesamt eine Menge Aufwand mit fraglichem Erfolg. Piper ist einfach, Kokoro natürlicher aber nur 4o-mini-tts wohl gerade noch akzeptabel für YouTube. Kostet halt ca. $2/h während kokoro nur um die $0.06/h wären.
Die ganzen Tools wie huggingface-cli zum Download müllen einem die App Caches voll. Uv ist hier mit den pytorch Versionen auch ungehalten. Ist echt nicht cool, was da an Daten auf der Platte landet, was man erst manuell wieder entfernen kann oder ich muss ein paar Sachen lernen. Eigentlich kein Problem, weil Platz wenig kostet, nur will ich eben immer nur sparen. Tja…
0 Responses to “Kokoro”