Tesseract YouTube OCR « welt.weit.org

Ich hatte die fixe Ideen, Datensätze aus Barchart-Run YouTube Videos zu extrahieren. Einige Statistik YouTube Kanäle sind sehr erfolgreich. Dank einiger Skripte scheint mir das alles wenig Aufwand. Doch woher die Datensaätze bekommen?

Um einfache Remixe oder Erweiterungen dieser Videos zu erstellen, dabei aber die Videos nicht komplett zu klauen, probierte ich OCR von Videoframes. Mit After Effects filterte ich die Farben weg. Tesseract hatte Probleme mit Logos. Die wollte ich per Tracking überdecken, doch das stellte sich schnell als zu Zeitaufwändig heraus. Mit Scripten und etwas Python Coding bekam ich das aber hin. Tesseract kann in der neuen Version sogar TSV ausgeben. Vor Jahren, als ich meinen Meme-Übersetzer bauen wollte, war das alles noch wackeliger. Jetzt konnte ich aber auch einfach pro Frame die Texte und Zahlen erkennen – mit eben Noise durch Logos, die man vielleicht per Regex weg bekommt. Am Ende fand ich sogar noch eine Multicore Version, womit man ca. 200 Frames / Minute schafft. Jedes PNG wird zur Text-Datei.

Eigentlich ist es Quatsch, jedes Frame zu erkennen, wenn die Ausgangsdaten interpoliert angezeigt werden. Nur habe ich viele historische Daten eben nicht. Die neueren kann ich sicherlich finden.

Falls ich den Kanal starte mit 2 Videos pro Woche: Liste + Bar Chart Race, muss ein guter Workflow her. Heute schien das Visuelle Scraping schon gut möglich. Als nächstes muss ich mich mit Cleanup, Pandas und eben Behandlung von Ausreißern (falsche OCR) beschäftigen. Dann das alles in meine eignen optimierten und aufgehübschten Animationen einbauen. Mal gucken. Eine weitere Option, wie man interessante Videos machen könnte.

Lehrreicher Tag.

Tesseract YouTube OCR

0 Responses to “Tesseract YouTube OCR”