Lange geschlafen. Der anstrengende gestrige Tag und die Nacht wirken nach. Ich saß lange draußen beim Frühstück. Schließlich wurde es zu spät zum joggen.
Einfach nur müde. Ich änderte die CCs von Dubrovnik etwas und experimentierte mit anderen Prompts für die Untertitel Generierung. Besser wurde das alles nicht. Die Texte wurden mit Beschränkungen zu kurz.
Gutes Abendessen, dann langsam weiter. Richtig voran kam ich nicht. Zwischendurch probierte ich kobald.cpp mit dem neuen WizardLM. Mit gut 20GB sollte es gut programmieren können. Nach GPT4 bin ich verwöhnt. Mit Kobald lokal ging einiges los. Powershell kannte er nicht – Python ging scon, wenn auch alles in Flask endete.
Na gut.Es sieht schon so aus, als wäre es am stabilsten, Videoshots als Basis für Queries zu nehmen. Ich brauche am Ende aber doch die OSM Nodes, um wohl GeoJSON Objekte dann für Storymaps zu bekommen. In Geodesk DBs ist scheinbar alles vorhanden, nur fehlt die sofortige Abfrage. Nur will ich nicht anfangen, einen Java-Server für’ne realtime API zu entwickeln aber am Ende müsste es darauf hinauslaufen.
Man hat den GPX Track und das Video. Dann kann man entlang des Tracks alle highway nodes und meine touristischen abfragen – die GeoJSONs davon anklicken und extrahieren. Das alles sollte dann mit HQ Videoshots, GPT Texten in ein CSV/Google Sheet übernommen werden. Manuell muss die Auswahl erfolgen, weil die Google Vision API nur Sehenswürdigkeiten kennt. Einfache Straßen werden nicht geknipst. Geodesk scheint zu ungenau,, auch wegen ungenauem GPS, das eben oft starke Abweichungen hat.
Ich brauchte ein paar Hilfstool für den Bilderüberblick:
Das html gallery tool, quasi ein Contactsheet, wo ich alle Bilder mit der richtigen ID und Zeit sehe. Per GPT4 ging das fix. im ersten Anlauf wurde nur io als Import vergessen. Dann wurde sogar noch tqdm als Statusinfo mit eingebaut. Knapp 50 Zeilen Python machen’s möglich.
Heraus kommt per videosheet.py ‚directory‘ ein index.html, was alle JPGs als base64 in einer tabelle embedded hat. Das ist bei ca. 50 Bilder 7MB groß, was aber OK ist. SingleFile lässt grüßen. Solche kleinen Hilfsscripte sind echt toll. Nun ist es schon so weit, dass die AI schneller ist, als das bei Github herauszusuchen oder natürlich auch selber einzutippen. Die Wertschöpfung liegt eben woanders. Hier könnte ich auch die VideoAPI per Knopfdruck abfragen aber mal gucken.
Mit diesem kleinen Erfolg, dass ich wenigstens genau genug beschreiben kann, dass die AI im quasi ersten Anlauf ein nutzbares Programm mit allen Features erstellt beendete ich den Tag. Wenig geworden, Prompt Engineering wird doch ein Skill, was anhand der unterschiedlichen Qualität meiner Tour-Texte noch gelernt werden kann. Mehrere Schritte sind wohl wichtig, wobei dann das gpt-engineer Projekt helfen könnte. Nur will ich eben als Sparhans noch nicht per API jedes Token bezahlen. Mit der Vision API komme ich jedenfalls auch kaum weiter. Ich checkte ein paar Videoshots und da kam selbst bei der Wroclaw Uni nur Wroclaw Market Square raus. Man muss das gesehene eben doch von Hand mit ein paar Worten beschreiben. Den Text drumrum macht GPT meistens schon OK. Der Workflow wird damit immer klarer:
– Videoshots von Sehenswürdigkeiten und Lokalitäten – 50 bis 100 entspricht dann Untertiteln
– Shots nach GPX zuordnen mit offset (+30s?) nach GPX Startzeit
– Erstellen von CSV Sights und nun doch wohl auch Streets nach Shots
– Manuelles Zusammenfügen, einfügen – quasi eine Outline (Subprompts) für Untertitel
– GPT erstellt ersten Entwurf, dann Untertitel nach 42 Zeichen je Satz etc. säubern lassen und als VTT ausgeben
– Untertitel des ersten Entwurfs für Storymaps nutzen? Bilder tunen, croppen und skalieren per Photoshop Actions?
– GeoJSON ist ungelöst, weil wohl eher alternativ, bzw. über eine Suche lösbar
Eventuell kann man in DaVinci auch Shots per Marker erstellen lassen. Alles in allem wird es leider nicht ganz automatisch gehen. Das Zusammenfügen von Texten habe ich noch nicht getestet, könnte interessant werden, wobei der GPT Output bei mehr Prompts auch nicht besser wird. Ich sollte weiterhin alle meine GPS Tracks aus Zepplife exportieren. Seit 1.6.2019 und noch vor GPX Viewer Pro sind die verfügbar. Der GPX Tracker machte auf Mi Mist, bei Moto One ging er nur…
OpenAI bringt Function Calling in die API. Damit kann man jetzt echte Interaktionen mit seinen eigenen Diensten erstellen. Es geht alles schnell voran und wird immer nützlicher.
0 Responses to “Mittwoch mau”