TTS-Tests

Rechtzeitig wach. Dann ein Tag, ähnlich dem gestrigen. Ich kümmerte mich um Sachen. Wir fuhren mal kurz zu Netto. Abends Spaghetti und Nachts dann weiter am Computer.

Ich hatte den ganzen Tag mit TTS Software verbracht. Mein Script wurde umgebaut, damit ich alle möglichen Endpunkte komfortabel ansprechen kann. Die Elevenlabs Qualität war die beste. Man bekommt 10.000 Credits pro Monat kostenlos. Ab $5/Monat dann 30.000 – für ca. 30 Minuten Audio. Das ist doch arg wenig. Als ich aber dann mal Neuphonic schaute, und die Qualität der russischen oder deutschen Sprache checkte, bekommt man bei 11Labs doch nur was Brauchbares.

Passend dazu gab’s einen Artikel auf HN, wo TTS still sucks. Kann ich bestätigen, denn die lokalen Modelle sind einfach fast unbrauchbar. Ich bekam aber dadurch noch mehr zum Testen. Kokoro weiter gecheckt – auch mit Extra-Sprachen. Auralis mit XTTSV2 bekam ich dank Codex mit vllm compiliert aber nach all der Arbeit stürzte der Worker wohl wegen fehlendem RAM doch ab. Ich archivierte das mal, weil es so viel Zeit brauchte.

Viele Modelle wurden von HF heruntergeladen – einige GB liegen da jetzt. Besonders cool war aber fishaudio. Ausreichende Qualität, nur leider eine CC-BY-SA-NC Lizenz. Das heißt, man darf den Output nicht kommerziell nutzen – also keine YouTube Videos mit Werbung.

Schon alles nicht so einfach. 11Labs verlangt auch Abo bei kommerzieller Nutzung. Nur neuTTS ist mit Apache Lizenz nutzbar, aber eben mit vielen Problemchen.

Aus OpenAI bekomme ich einfach keine artifaktfreie Stimme von „Onyx“. Immer vibriert da was synthetisch.

Am Ende bekam ich sogar mal das VibeVoice Installiert. Selbst die kleinere 1.5B Version verursachte einige GB Swap. Super Qualität aber eben nicht für meine Hardware geeignet.

Viele Stunden gingen also heute mit TTS Tests drauf. Chatterbox schien gerade noch möglich, hat eine etwas komische Steuerung und auch keine Geschwindigkeitskontrolle. Andere haben eben auch mitbekommen, dass alles etwas schwierig mit lokalen Modellen ist.

Ich hatte erst Zeit an einem zu alten Chatterbox Repo verschwendet. Das zu fixen brachte wenig, denn die v2 hatte multiple Sprachen. Auch dort ließ ich GGUF Modelle auswechseln. Das Hauptproblem fand ich dann, weil ständig 9GB+ Swap verraucht wurden – „mps“ als Backend statt CPU passt nicht in das RAM. Mit CPU und ohne weitere Apps, könnte es also gehen. Chatterbox v2 ist doch das Einzige Projekt, was derzeit brauchbar wäre. Gerade noch schnell genug. Derzeit plappert es nur auch zu schnell. Ich brauche extrem langsame Sprache. Wie das geht, werde ich sehen.

Heute erst mal genug Überblick bekommen.

Dank Codex waren die Installations und Austauscharbeiten möglich. Ohne dessen AI Unterstützung wären die ganzen Tests gar nicht möglich gewesen.

Chatterbox also irgendwie nutzbar machen. Da gab’s oft noch zu viele Halluzinationen. Es klingt schon komisch und gruselig, wenn es dann erzählt, was man nicht versteht. Kokoro für die meisten Sprachen, Englisch und Deutsch wohl mit Chatterbox oder OpenAI. Mal sehen.

0 Responses to “TTS-Tests”


  • Keine Kommentare

Antworten

You must be logged in to post a comment.