Nachmittags holte ich meine Arbeit am Lindos Video nach – Überstzungen, Einbau und auch die A/B Titelbilder. Es war ziemlich klar, dass der relativ unbekannte Ort wenig Views bekommen wird.
Die Motivation schwankt halt, weil interessante Ideen lange Umsetzung brauchen. Ich fand noch nicht mal die Muse, die 12 Videos bis Ende Juni mit einem Intro zu versehen, geschweige denn Subs. Das muss auch diese Tage passieren.
Erst mal zu Action. Popcornmais war ausverkauft. Eine Kulturtasche mit veränderbaren Wänden sah aber gut für den M4 Transport aus. bei Aldi auch noch Kleinigkeiten. Joggen wieder wird langsam zur Routine. Dann erst gegen Mitternacht mein Abendessen aus Gyroshuhn mit Pommes. Alles schmeckte.
Ich war dann den Mac mini an und wollte mir den MLX basierten Dia TTS Server installieren. Uv stellte ich per UV_CACHE_DIR auf dei externe „C“ SSD. Das war gut. Erst mal musste ich das venv auf Python 3.12 neu machen. Dann haute es gut 3GB an Sachen drauf. Die mickrige Mac SSD muss man schonen.
Die Sache klappte aber cih fand ein Mega Problem des Dia „Dialog“ Modells. Die Sprecher waren nicht konsistent. Da wurde mal Mann-Mann, Mann-Frau und in immer anderen Stimmen gesprochen. Das Problem ist seit Wochen bekannt, Anleitungen sollten folgen, gab’s aber bisher noch nicht. Mit Zufallsstimmen kann ich die Sache natürlich nicht gebrauchen. Ein PC/CUDA basierter Server hatte das Problem wohl etwas gelöst – mit Voice Cloning und einem extra Propt.
Per Gemini ließ ich den MLX Server umschreiben aber hatte dann doch keine Lust mehr, die Sache noch weiter zu verfolgen und zu implementieren. Das Problem war auch, dass es mit den 1200 Token nur ca. 10s Audio gibt – in 40-70s. Zu langer Text wird einfach abgeschnitten. Die Qualität in den 10s ist voll OK für meine Zwecke. Es wird vielleicht etwas zu schnell gequasselt aber naja. Mit den 10s Clips müsste ich viel Weglassen und pro Segment noch mal alles aufteilen. Die PC Version splittet wohl alles auf, was man sicher auch auf dem Mac hinbekäme. Ich halte mich damit aber vielleicht zu sehr auf. Könnte auch warten in ein paar Wochen eine bessere Option nutzen, wahrscheinlich.
Da es aber vor der AO Abfahrt mal ein Resultat geben muss, werde ich eine einzelne Stimme nehmen und eventuell die S1/S2 von Hand generieren – per kokoro oder besser OpenAI 4o. Es ist cool, dass die Sachen mit meiner Hardware hier laufen. Lokale Modelle sind aber doch um einiges beschränkt und bisher nicht so richtig professionell nutzbar.
Morgen muss mal wieder was Produktives geschehen.
0 Responses to “Dia”