Text-Massage

Es gibt diverse Bugs zu fixen, der Imagescraper findet auf Google das Falsche, was ich auch irgendiwe ändern konnte. Wieder mal filtere ich einen Haufen Wärter und Daten raus, damit Google den nützlichsten Such-Term bekommt. Nicht immer klappt das alles.

Ein weiteres Problem sind die ungefilterten Texte mit allerhand DIVs, Tracking und sonstigem Klimmbimm. Deswegen steigt meine Regex zur Verkürzten Artikelangabe oft aus. So nahm ich schließlich nach vielem Herumtesten html2text, ein paar Regex, um linebreaks einzufügen und die Bilder zu entfernen. So wird der text also zuerst in Markdown konvertiert (html2text) und dann wieder zurück in html (markdown2). Damit wird alles schön sauber.

Ich werde das Artikelbild am Besten gar nicht in den Artikel kleben sondern vom Template einfügen. So machte ich das alles in’s scrubber lugin, wo es wohl auch hingehört. Dann merkte ich jedoch, dass ich ja die Bilder scrapen muss. Also musste ein eigenes superscrub Plugin her, nachgelagert nach dem Image-Scraper.

Das Ding funktioniert insgesamt einigermaßen und somit habe ich ein weiteres Problem gelöst.

0 Responses to “Text-Massage”


Kommentare sind zur Zeit nicht möglich.
2015-10-25_02-16-28_2015-10-25-02.16.28.jpg
2015-10-25_02-16-28_2015-10-25-02.16.28.jpg
2015-10-25_02-27-44_2015-10-25-02.27.44.jpg
2015-10-25_02-27-44_2015-10-25-02.27.44.jpg
2015-10-25_02-29-28_2015-10-25-02.29.28-2.jpg
2015-10-25_02-29-28_2015-10-25-02.29.28-2.jpg
2015-10-25_02-34-58_2015-10-25-02.34.58-2.jpg
2015-10-25_02-34-58_2015-10-25-02.34.58-2.jpg
2015-10-25_02-49-07_2015-10-25-02.49.07-1.jpg
2015-10-25_02-49-07_2015-10-25-02.49.07-1.jpg
2015-10-25_02-54-27_2015-10-25-02.54.27.jpg
2015-10-25_02-54-27_2015-10-25-02.54.27.jpg