Voice Zeug

Relativ ruhiger Tag. Das Wetter trüb. Ich musste etwas Schlaf nachholen und kam nachmittags auf die Beine.

Ich guckte auf Server und zahlte mal $5 (€4.31) in nano-gpt ein. Die TTS o4 mini Preise dort waren aber doch nicht so gut, wie erwartet. Viele Modelle, im Abo viel auch quantized.

Die niedriegn 0.00006/t summierten sich, weil aus wenig Text viele Audiotoken werden und das irgendwie nicht hinhaute. Ich kam auf 2-3 ct für eine Minute. Das billigste o4 mini TTS Model hatte da über Nano-GPT auch diverse Artifakte. Erst dachte ich, dass es bei openai.fm eine schlechte Qualität kostenlos gab, doch die Qualität blieb auch mit dem Bezahlen bei OpenAI genauso.

Dennoch war die nano-tts Script-Enzwicklung produktiv, denn ich sah die Unterschiede zwischen den APIs. Nano-GPT nimmt „text“ statt „input“ als key. Am Ende konnte ich 4 verschiedene Provider mit dem selben Script ansteuern: NeuTTS, Kokoro, OpenAI und Nano-GPT. Zwar irgendwie alle OpenAI API-kompatibel aber eben nicht ganz mit vielen Spezial-Optionen. Bin da sich noch nicht fertig.

Interessant war auch de Kombinierung der ganzen Audio-Chunks zurück in eine einzelnen Track. Per ffmpeg amix filter wurde die Lautstärke niedrig – eigentlich normalized, wobei ich aber Qualitätsverluste erwarte – jedenfalls bei 1000 Chunks von großen Subs – selbst mit Batches oder so. Jedenfalls kam GLM an die Grenzen. Also wurde eine concat-Version per codex gestartet wo die stillen Zeiten als MP3 generiert werden, damit alle Audio Teile an die richtige Stelle rücken. Wie genau das wird, muss sich zeigen.

Erst mal mache ich aber wohl nur die Intros mit Voiceover und OpenAI TTS und werde mal sehen. Dann „Descriptive Audio“ über NeuTTS bzw. Kokoro im billigen Batch über den Mac. Die Phonemes sind oft nicht korrekt aber was will man machen. Hauptsache es geht mal was weiter. TTS ist nur lokal echt billig und ich kriege nur Dubbing und Descriptive Audio in den Übersetzungen, wenn auch was im Video erzählt wird. Das muss ich schnell testen, ob 1 Minute Wörter für die Dub-Option ausreicht.

Somit also doch eine interessante Nacht. Mac ist schon cool. Viele LLM Tools laufen da zuerst, wo ich dann die Windows Versionen nur knapp hinbiegen kann.

0 Responses to “Voice Zeug”


  • Keine Kommentare

Antworten

You must be logged in to post a comment.