Video und Voice

Montags, müde und traurig, dass die Zeit auf Mallorca zu Ende geht. Ein exzellentes Sandwich auf dem Balkon bei bewölktem Wetter. Es soll aber schöner werden, nur bin ich dann weg.

Kurzes Telefonat mit Chemnitz, dann am Computer machte ich ein Valencia Video klar. Den Mac hätte ich schon mehr nutzen können aber so richtig Langweile kam hier ja nicht auf. Der Speededitor lohnte sich nicht so richtig. Irgendwie wäre das alles auch mit der Tastatur in meinem Mouse Shortcut gegangen.

Ein später Einkauf. Ein paar Regentropfen. Kein Sport.

Ich machte mir die zweite Hälfte der Tortilla warm. Eine Flasche Sangria stand beim Free Food. Obwohl ich heute nichts trinken wollte, nahm ich die doch mit. Viel zu süß aber somit wenigstens etwas Neues heute.

Ich sah ein Video vom Camino Primitivo, was von Google AI gedubbt wurde. Das erste mal, las vorher nur davon.

Das Valencia Video war schließlich nach über 3h fertig gerendert. Der Mac ist schon cool für HDR. Gegen Mitternacht lud ich es unten von der Lobby aus auf YouTube. Mit gleichzeitigem UE5.5 Update kam der HP außer Puste. Es ruckelte viel. Der Upspeed hier reichte bis knapp 200Mbit herum, stürzte aber auch oft auf 10 Mbit. Ich brauchte eine richtige Position auf dem Tisch. Hoffentlich gibt’s keine Musik zu beanstanden…

Während das Video transferierte, schaute ich mir Text-to-Speech Sachen an. Zuerst ließ ich Gemini Pro meine Subs-Texte in echte Sprache umwandeln. Das war doch gleich viel besser. GPT4.5 war da bei weitem nicht so cool und vergaß vom ganzen Text viel. Einzelne Zeilen wurden von GPT4.5 aber schon echt nett umgewandelt. Das GPT4.5 Modell soll extrem teuer zu betreiben sein und kann es damit auch nicht mit den ca. 75-100+ notwendigen Antworten pro Video nutzen. Ich ließ dann jedoch einfach den Gemini Text in ChatGPT 3.5 ausgeben und schließlich sprechen (Sol). Die Qualität war für mich voll OK. 11Elevenlabs wird immer als bester Service bezeichnet, doch mir war die Ausgabe da zu emotionslos und auch teuer.

In ChatGPT kosten 1M chars in HQ $30 – d.h. für ein Video mit um die 40.000 Zeichen Text um die $1.20 über die API. Man könnte allerdings auch die Sachen von der Website captured – sicher irgendwie per LibreAutomate und dem Chrome AudioCapture Plugin. Überlege ich mir mal, wenn ich ein Video mit Sprache auch mal veröffentliche. Man kann also wirklich aus einem Spaziergang am Ende das Video mit einem Sprecher und echten Infos versehen. Schon Klasse, was alles gänge. Die Arbeit, die Sprache schließlich mit den Videos zurück zu verbinden, ist nicht ohne. In naher Zukunft könnte aber so ein Sprecher wirklich die Sachen direkt zum Video kommentieren, was ich bisher von Hand mache. Ich sollte also baldigst die Videos nicht nur mit Untertiteln sondern echter Sprache versehen, per Ableton arrangieren, um dann mal den Erfolg messen zu können. Das Dresden Multicam Video wäre damit wieder einen Test wert.

Am Ende kommt’s eben wirklich auf den Workflow an…und noch mehr, ob’s jemanden interessiert. Jedenfalls brachte mich der TTS Test wieder in eine bessere Laune. Mal könnte ja so viel machen und Leute beschäftigen. Nur eben nicht bezahlen…

0 Responses to “Video und Voice”


  • Keine Kommentare

Antworten

You must be logged in to post a comment.