Damals hatte ich angekündigt, dass wir künftig die Werte der Landesbehörden nutzen wollen. Wir haben uns nun aus methodischen und technischen Gründen anders entschieden. https://twitter.com/marcelpauly/status/1319237925167632386
Auf die methodisch-inhaltlichen Überlegungen gehe ich im eingangs verlinkten Artikel ein. Für die #ddj- und #OpenData-Community ist vielleicht auch die technische Seite interessant. Dazu an dieser Stelle ein paar Worte:
Nur wenige Bundesländer haben in den zurückliegenden Monaten eine vernünftige Infrastruktur zur Veröffentlichung maschinenlesbarer Corona-Daten aufgebaut. Die von uns in Python geschriebenen Scraper für die 16 Länder waren zwar prinzipiell in der Lage, die Daten einzulesen.
Allerdings verging in unserem zweiwöchigen Test kaum ein Tag, an dem wir nicht händisch eingreifen mussten. Im besten Fall handelte es sich um Veränderungen ggü. dem Vortag, auf die zwar unsere Plausibilitätschecks reagierten, die wir aber nach einem Abgleich freigeben konnten.
Aber wiederholt waren Anpassungen in den Skripten notwendig. Mal wurden Tabellenstrukturen verändert, mal verschwand vorübergehend die Angabe zum Datenstand von der Landesseite.
In MV und ST veröffentlichen die Behörden das aktuelle Datenmaterial nur im PDF-Format. Mit Tabula (und z.T. Tesseract) konnten wir zwar Zahlen aus den PDFs extrahieren, allerdings ist dieses Vorgehen natürlich äußerst fehleranfällig.
(Die scrapebare interaktive Karte in ST wurde in den vergangenen Wochen immer mal wieder über mehrere Tage nicht aktualisiert, auch unter der Woche. Sie war daher keine adäquate Datenquelle.)
Ein wirklich automatisierter Betrieb unseres Setups war nicht möglich. Aus inhaltlichen (s.o.) und Ressourcengründen haben wir uns gegen das halb-automatische Einsammeln der Landeswerte entschieden.
You can follow @marcelpauly.
Tip: mention @twtextapp on a Twitter thread with the keyword “unroll” to get a link to it.

Latest Threads Unrolled:

By continuing to use the site, you are consenting to the use of cookies as explained in our Cookie Policy to improve your experience.