Headless Chrome

Für’s Scraping beschäftigte ich mal eine Weile mit dem neuen headless Chrome. Seit Version 59 geht das nun auch ohne GUI. Es gibt jedoch immer wieder Fehlermeldngen, die ich mit ein paar chmods dann zurecht bog.

alias chrome-canary="/Applications/Google\ Chrome\ Canary.app/Contents/MacOS/Google\ Chrome\ Canary"

Dann einfach per Kommandozeile:


chrome-canary --headless --disable-gpu --window-size=1920,1080 --hide-scrollbars --disable-extensions-except="disable-HTML" --user-data-dir="/Users/dsc/Library/Application\ Support/Google/Chrome\ Canary/Default" --fast-start --screenshot http://welt.weit.org

Leider geht das alles nicht ganz. Die User-Daten werden nicht geladen, was für Cookies und Einstellungen wie z.B. Abschalten vom Bilderlladen notwendig ist. Somit noch nicht brauchbar – auch bekannte Bugs.

Das ganze Zeug ist noch zu sehr „bleeding edge“ aber eben die Zukunft, wenn die Bugs mal gefixt sind und der Python Wrapper alles unterstützt. Man spart ein paar Sekundenbruchteile pro Aufruf, was sich summiert. Bisher muss man doch wieder über Selenium ran. Seit Firefox den treiber geändert hat, machte ich noch nichts wieder damit.

Ich fand auch noch eine Python Version von JSON Path. Für PHP ist die Sache bekannt, um mit APIs einfacher zu arbeiten, nützt mir das dann vielleicht auch. https://github.com/jabbalaci/JSON-path

0 Responses to “Headless Chrome”


Kommentare sind zur Zeit nicht möglich.
2017-05-26_14-45-26_2017-05-26-14.45.26.jpg
2017-05-26_14-45-26_2017-05-26-14.45.26.jpg
2017-05-26_17-02-52_S0030206.jpg
2017-05-26_17-02-52_S0030206.jpg
2017-05-26_19-19-21_2017-05-26-19.19.21.jpg
2017-05-26_19-19-21_2017-05-26-19.19.21.jpg
2017-05-26_19-56-31_DSCF0208-hdr.jpg
2017-05-26_19-56-31_DSCF0208-hdr.jpg
2017-05-26_19-56-44_S0050211.jpg
2017-05-26_19-56-44_S0050211.jpg
2017-05-26_19-57-01_S0070214.jpg
2017-05-26_19-57-01_S0070214.jpg
2017-05-26_19-57-22_S0080216-pan.jpg
2017-05-26_19-57-22_S0080216-pan.jpg
2017-05-26_19-57-36_S0090227.jpg
2017-05-26_19-57-36_S0090227.jpg
2017-05-26_19-57-49_S0100228.jpg
2017-05-26_19-57-49_S0100228.jpg
2017-05-26_19-57-54_S0110231.jpg
2017-05-26_19-57-54_S0110231.jpg
2017-05-26_19-58-09_S0140237.jpg
2017-05-26_19-58-09_S0140237.jpg
2017-05-26_19-58-43_S0150240.jpg
2017-05-26_19-58-43_S0150240.jpg
2017-05-26_19-59-32_S0160241.jpg
2017-05-26_19-59-32_S0160241.jpg
2017-05-26_20-04-26_2017-05-26-20.04.26.jpg
2017-05-26_20-04-26_2017-05-26-20.04.26.jpg