Elemente extrahieren « welt.weit.org

Vormittags kam meine Mutter zurück vom Job. Ich versuchte dann ein paar Stunden zu schlafen. Spät erst dann wieder auf den Beinen, müde und somit ein ruhiger Sonntag.

Die Idee, die ich gestern hatte, über Regex die Templates in den HTML Daten zu erkennen, setzte ich dann in der Nacht doch noch um.

Über bs4 werden die H2 Sektionen aufgeteilt, das hatte ich ja schon mal dank Stackoverflow. Dann in der Sektion wird eine Tabelle oder DIV nach einer CSS-class gefiltert. Damit hätte ich dann den richtigen HTML Code für das Template.
text = soup.findAll(["div", "table"], {"class": re.compile(template_name + '.*', re.IGNORECASE)})

Pro Sektion dann müsste ich auch behandeln, ob es mehrere Templates mit gleichem Namen gibt. Am Ende wird’s wohl doch händisch, weil es manchmal DIVs mit ID sind. Angesichts der ganzen Sachen werde ich wohl doch einfach mal den HTML-Code nehmen dann kommende Woche, damit ich erst mal fertig werde und an der Suchfunktion und dem Interface arbeiten kann. Das ganze Herumstochern im Code bringt am Ende nichts.

Elemente extrahieren

0 Responses to “Elemente extrahieren”