Image Hashing – ShortId « welt.weit.org

Spät raus aber wieder Sport. Ob’s gut tut, ist unklar, wenigstens bin ich an der frischen Luft und in schöner Natur. Ich joggte heute durch den Park am Tiškevičiai Haus vorbei, wo das Bernsteinmuseum ist. Abends natürlich schon geschlossen, wie die ganze Stadt.

Zuürck ging’s dann wieder über den Strand. Mit Windstille heute ganz anders als gestern.

Zu Hause dann wieder Spaghetti und eine Wanne. Ich kümmerte mich jetzt mehr um De-Duplizierung und fand auch ein paar Image Hashing Algorithmen, die ganz gute Resultate brachten. Über die Hamming-Distanz (auch fix in Python) kann man feststellen, wie unterschiedlich die Bilder untereinander sind. Alles bei dem kleinen 8×8 Bild dann unter 10 sollte auf gleiche Bilder hinweisen.

Den S3 Filenamen machte ich noch kleiner per ShortId. Dabei musste ich den Standard-String ändern. erst wollte ich „+-“ statt „_-“ am Ende nehmen, doch S3 will keine „+“ im String, also „()“. Die Definition des Ersatz-Strings fand ich nur über den Sourcecode. Ich mache also Fortschritte, da Sachen auch selbst zu ändern. Eigentlich könnte man den pHash gleich in den Dateinamen schreiben, genauso wie die Bildgröße. Dann kann man auch ohne Datenzugriff die Bilder vergleichen und das bestaufgelöste Bild behalten.

Irgendwie war ShortId den Aufwand nicht wert und ich ging zurück auf shortuuid.

Ich machte dann eine lange Wortliste, nach der die Deal-Texte gefiltert werden. Den Jaccard-Index bekam ich so in die Höhe und be selbst >0.2 hatte ich viele Duplicate. In 100 Artikeln gibt’s gleich 80 Dupes. Es gibt viel zu filtern aber das muss ich dann üer das WP-Theme machen. Ich denke über Custom-Fields: „hasDupes“ und „isDupeOf“ könnte man dann wohl die Sachen sortieren und keine Dupes anzeigen. Am besten gar nicht erst in WP eintragen.

Image Hashing – ShortId

0 Responses to “Image Hashing – ShortId”