Nachmittags doch weiter im RSS catcher, weil ich vor 2 Wochen Arbeit das Ding endlich launchen will. Ich wollte den Code, vom Watir Launch einfach so als Plugin einbauen – ging nicht.
Meine Vermutung ist, dass bei ausgeschaltetem Multiprocessing eben auch kein weiterer Process des Feed workers angestoßen werden kann. Ich ging zurück auf das alte „os.popen“ und da klappte das. Welchen Einfluss das auf die Stabilität hat, weiß ich nicht. Eine Ruby/Python Lösung ist sowieso nicht ganz so elegant aber das Resultat zählt auch. Ich bekam nun die Link zurück, sehr langsam. Als nächstes machte ich den Firefox ohne Bilderladen klar…nicht. Zu lange probiert, kein Erfolg. Ein neues Profile soll man anlegen können und dann darauf umschalten. Mache ich irgendwann.
Das irrste kam aber noch. Weil das ‚€‘ nicht in der ASCII Tabelle ist, funktionierte mein RegEx zwar im Python CLI aber nicht im Skript. Ich verzweifelte fast, versuchte die \x Charaktere zu finden, dann den UTF-8 Code – alles mehr oder weniger erfolgslos.
Der ganze Mist wurde mir zu viel. Ich joggte nach 21:00 erst im fast Dunkeln. Die Felder sind teilweise gemäht – lange Stile machen den Weg da etwas spießig.
Schließlich zurück fand ich die Lösung über eine Konvertierung von UTF-8 zu HTML, Suche danach (+;), und dann wieder zurück nach UTF-8. Das Ganze ist sicher bei Python 3 unnötig aber selbst sowas winziges, wie das €-Symbol machte eben Probleme. Auch gelöst
Die Regex änderte sich:
re.findall(r'(?:[+\-£]?\d+(?:\,\d+)?\s)?\S*(?:\b&euro\b;|\b€\b;|\bEUR\b|\bEuro\b|\b,- Euro\b|[%])\S*?', title
Auch ständig Zahnschmerzen aber mein Termin ist erst in einer Woche. Spaghetti wieder zum Abendessen – Mitternacht.
Ich habe die Sachen nun beisammen. Es ist klar, dass ich einen lokalen TestFeed brauche, damit ich später bei der Entwicklung schneller vorankomme. Jetzt scheinen die ganzen einfachen Daten erst mal gelöst und ich machte mich an’s Theme. Dazu testete ich die komplette Pipeline: load : scrubber, image-cache, content-extra, destination-link, post-to-wordpress und alles klappte. Die paar Probleme mit den PHP Weiterleitungen und fehlenden Bildern werde ich schon noch in den Griff bekommen. Jezt erst mal das Design und eine Minimalversion.
Ich hatte ja schon vor Monaten mal kurz dran gearbeitet. Jetzt machte die BG-Bilder und time-since klar. Als nächsten müssen die Links rein, dann endlich mal die favicons zu den Quellen. Den Dupe-Finder für HN fand ich auch wieder. Ich könnte da sicher meinen Blog mit dem BlackSlate Theme erst mal selber auf Dupes checken. Es wird wichtig, dass ich die Post-Id, die von WordPress über XMLRPC zurück kommt, wieder in DB übernehme, damit ich eine komplette Verbindung der Daten erreichen kann.
So sah die Sache schon mal ganz gut aus. Der Roboto Font ist zu kalt und sollte OpenSans weichen. Insgesamt jetzt, wo man sogar das Ding online stellen könnte irgendwie cool, mein RSS Blog.


0 Responses to “Subprocess Probleme, RegExzess 2”