Einige Wege

Später Start nach den langen Nacht. Nach dem Frühstück auf der Terasse sah ich einen kleinen Spatz herumliegen. Er kam auf’s Feld unter die Erde.

Zweifel ob der anstehenden Reise checkte ich noch mal die Sicherheitslage. Hat sich eben in TJ etwas getan. Eine Bekannte ist dort, hat schöne Erlebnisse. Tja.

Ich hatte dann ein paar Wege zu erledigen: zwei Pakete auf die Post incl der kaputten Mediamarkt Powerbank und debitel Abmeldung als Einschreiben. Die Post-Angestellte fragte mich, ob ich von denen weg will. Ich schnallte erst gar nicht, was sie meinte. Neuer Mobilfunkvertrag alle zwei Jahre. Die 1GB LTE + 50/50 für €2,99/Monat waren aber gut. Mehr brauche ich normalerweise nicht aber nach der Mindestvertragslaufzeit kostet’s gleich €20/Monat oder so.

Einkauf bei Lidl – €37,73 mit allerhand, darunter auch Leinwand zum Malen. Zu Hause dann Sushi, putzen und wieder Mac. Die Toshiba MK6034GSX fand ich – gut für den neverware PC. Bei eBay €10 Wert.

Nachts dann wieder zurück zum ZIM Extractor. Ich überlegte und probierte mit SQLite irgendwas, um an den Index und die URLs zu kommen. Dann löste ich die Sache pragmatisch: während der bootstrap Index-Erzeugung, schreibe ich einfach die Daten als CSV in ein Textfile. Das ging ebenfalls schnell und machte mit den ca. 51K Zeilen nur 2,2MByte. Doppelt gemoppelt zwar aber so komme ich weiter. Wie und ob ich redirects dann auch noch erkenne werde ich sehen. Eventuell kann man während des Redirects auch ein nginx-map File generieren, wenn ich über die ganzen Einträge iteriere. Manchmal ist eine professionelle Lösung eben noch weit weg, doch was funktioniert, ist auch gut. Und ja, die Sache klappte mit ein paar Zeilen Code zum csv reader. Die Abfrage per HTTP aus dem ZIMply kostet um die 0.05 sec. Dann noch die Weiterbearbeitung per meinem Script.

Problem ist wieder, dass auch die leeren Sektionen gespeichert werden. HTML ohne sinnvollen Inhalt ist schwerer zu erkennen aber mit einer schnellen Abfrage im H2 Extractor ging das dann auch:

content = '\n'.join(section)
if len(bs(content, "lxml").text.strip()) > 3:
pages[section_title] = content

Jetzt kommt das Frontend und Template dran. Zuerst vielleicht die Suchfunktion, die ja am wichtigen ist.

0 Responses to “Einige Wege”


Kommentare sind zur Zeit nicht möglich.
2018-08-16_20-30-07_IMG_20180816_203007.jpg
2018-08-16_20-30-07_IMG_20180816_203007.jpg
2018-08-16_21-46-01_IMG_20180816_214601.jpg
2018-08-16_21-46-01_IMG_20180816_214601.jpg
2018-08-16_21-53-39_IMG_20180816_215339.jpg
2018-08-16_21-53-39_IMG_20180816_215339.jpg
2018-08-17_00-52-45_IMG_20180817_005245.jpg
2018-08-17_00-52-45_IMG_20180817_005245.jpg