Die lange Session brachte wieder einen Start zum Abend. Ich war eigentlich zufrieden mit meiner Arbeit. Wenn aber Amsterdam auch nicht interessiert, liegt’s eben nicht (nur) an mir.
Weil Codex mit dem Port Listener für’s Login nicht auf dem Handy, ging, richtete ich Claude mit dem Z.ai Token auf Termux ein. Somit kann ich auf meinem Android Handy auch gleich Code entwickeln lassen. Die Chinesen geben jetzt das erste Quartal für $9 im Basic Account. Ich kam bisher noch nicht ans Limit – weder bei Codex noch Z.ai und kaufte das dann auch – bis 15.1.2026 erst mal.
Ich ließ mir in Lua mal testweise einen Textscroller bauen, was aber ziemlich schief lief.
Weniger schief lief dann die Codex Session mit Vision OCR. Erst wollte ich das schnelle Apple VLM nehmen, doch ich brauche etwas genauere Daten, Bounding Boxes und nahm doch wieder Swift. Dank meiner Beispiel-Tools und etwas Hilfe von anderen Repos, ließ ich einen OCR Extractor für Datenvideos bauen. Die werden in JSON oder CSV gespeichert – gut für die Weiterverarbeitung in Pandas.
Das irre war, dass Codex im Yolo Modus fast alles alleine hinbekam, sogar das WebM Video konvertierte er sich per ffmpeg zurecht, ohne dass ich was sagen musste. Am Ende wurde sogar noch in 1-2 Prompts eine Visualisierung zum Cross Check der OCR-Daten mit dem Video gebaut! Die OCR auf 1920×1080 geht mit 100ms pro Frame recht schnell. CPU und GPU sind unter 10% ausgelastet. Weiß nicht, wo da der Bottleneck ist. Bei einem 6 1/2 Minuten Video kommt bei 10fps ein 73 MB JSON und 1.4 MB CSV raus – mit 20-30 Objekten. Kein Big Data und gut mit Pandas handlebar. Nun wäre ein Roundtrip Video zu Video wichtig.
Schöne neue Welt! Wenn ich mir überlege, wie lange ich noch vor einem Jahr damit selber verbracht habe und das jetzt neu und frisch so schnell geht, ist das eine mega Entwicklung. Lange Zeit brauchte ich das €20 ChatGPT Abo nicht. Heute aber war ich mal wieder zufrieden damit. Wie gut das Extra GLM4.5 noch genutzt werden kann, wenn jetzt GPT5-Codex jetzt schon so gut ist .. mal sehen. Ich brauche noch so viele Tools aber all diese sind eben nur für komplizierte Video-Schienen, die den Massenmarkt kaum interessieren. Das sind alles ganz einfache Tools – eine Funktion für eine API. Trotzdem sehr nützlich.
Am Ende baute ich noch einen Konverter der Untertitel mit Zahlen in Freedom Units. Alles in Imperial war gar nicht so einfach mit Gewicht, Fläche, Temperatur… Man müsste lt. ChatGPT ohne Regex eher mit Tokenization gehen. Da kann ich gleich ChatGPT fragen. Ausprobiert wird der Regex Konverter dann bald. „Black Bag“ angeschaut – war nett.
0 Responses to “Agents”