Headless Firefox auf Debian

Über Twitter las ich ein paar interessante Links zu Tutorials. Abends dann machte ich mich dara, headless Firefox auf dem OVH Miniserver zu installieren.

Der Image-Scraper funktioniert nun problemlos. Über 150 Posts wurden korrekt mit Bildern versehen. Bisher kein Fehler selbst bei snipz.

Auf dem OVH klappte dann auch der erste kleine Test. Nun kann ich also über Selenium per Firefox scrapen. Der Atom ist arg langsam – 10sec, nur um auf die Google Seite zu gehen. Mal sehen, wie das dann läuft und ob ich das überhaupt brauche. Eventuell muss ich meine Affiliate-Codes ja direkt bei den Netzwerken abholen.

Hier kommt digidip in’s Spiel. Ich fand den Service über Python redirects, was die Redirects fast bis an’s Ende schafft. Der erste 200 Code markiert leider das Ende. Die vielen Links bei den Spieledeals sind kaum zu bewältigen, wenn ich das Ruby Watir Konstrukt nehme. Ich könnte sicherlich mit digidip früher aussteigen aber erst mal brauche ich eine laufende Website mit Dedupe und Design. Erst mal Leute gewinnen, bevor das monetized werden kann. Nur, die Sachen zu lesen, ist halt interessanter, als zu arbeiten.

Ich machte nochmal einen Versuch auch ohne Headless an die Link zu kommen. Bei einigen Sachen geht’s da weiter doch sobald irgendwelches JS Zeug dazukommt, steigt’s halt aus. Neu für mich war url = urllib.unquote_plus(url), was die URL etwas aufräumt, die man da findet. Beim etracker ging das dann auch mit der Keyword-erkennung: url = parse_qs(urlparse(url).query)['et_url'] #etracker. Aber wie, das Keyword überall finden? …wohl wieder Regex. Das wird alles etwas kompliziert und am Ende ist das vielleicht unwichtig. Wichtig ist, dass der Image-Scraper inzwischen zu 100% funktioniert. Mal sehen, wie lange.

Ich ging was einkaufen, Sandwich zum Abendessen und dann mal auf die Party.

0 Responses to “Headless Firefox auf Debian”


Kommentare sind zur Zeit nicht möglich.
2015-09-16_18-20-02_2015-09-16-18.20.02.jpg
2015-09-16_18-20-02_2015-09-16-18.20.02.jpg
2015-09-16_22-51-01_2015-09-16-22.51.01.jpg
2015-09-16_22-51-01_2015-09-16-22.51.01.jpg
2015-09-17_02-06-18_2015-09-17-02.06.18-1.jpg
2015-09-17_02-06-18_2015-09-17-02.06.18-1.jpg
2015-09-17_02-37-18_2015-09-17-02.37.18-1.jpg
2015-09-17_02-37-18_2015-09-17-02.37.18-1.jpg