Wir nutzen in unseren Grafiken auf http://SPIEGEL.de jetzt nicht mehr die vom RKI veröffentlichte Sieben-Tage-Inzidenz, sondern berechnen die Werte für alle Landkreise und Städte selbst. Wie und warum – das habe ich hier aufgeschrieben: https://www.spiegel.de/wissenschaft/medizin/corona-zahlen-welche-landkreise-ueber-dem-grenzwert-der-sieben-tage-inzidenz-liegen-a-e48c758d-d52a-4389-b881-f3ed78a4dab9
Hintergrund ist unsere Recherche über die zu niedrigen Inzidenzwerte des RKI: https://www.spiegel.de/panorama/gesellschaft/corona-daten-das-robert-koch-institut-vermeldet-haeufig-falsche-sieben-tage-inzidenzen-a-8695fde3-38ae-4125-89d9-2942bb2ffce6
Damals hatte ich angekündigt, dass wir künftig die Werte der Landesbehörden nutzen wollen. Wir haben uns nun aus methodischen und technischen Gründen anders entschieden. https://twitter.com/marcelpauly/status/1319237925167632386
Auf die methodisch-inhaltlichen Überlegungen gehe ich im eingangs verlinkten Artikel ein. Für die #ddj- und #OpenData-Community ist vielleicht auch die technische Seite interessant. Dazu an dieser Stelle ein paar Worte:
Nur wenige Bundesländer haben in den zurückliegenden Monaten eine vernünftige Infrastruktur zur Veröffentlichung maschinenlesbarer Corona-Daten aufgebaut. Die von uns in Python geschriebenen Scraper für die 16 Länder waren zwar prinzipiell in der Lage, die Daten einzulesen.
Allerdings verging in unserem zweiwöchigen Test kaum ein Tag, an dem wir nicht händisch eingreifen mussten. Im besten Fall handelte es sich um Veränderungen ggü. dem Vortag, auf die zwar unsere Plausibilitätschecks reagierten, die wir aber nach einem Abgleich freigeben konnten.
Aber wiederholt waren Anpassungen in den Skripten notwendig. Mal wurden Tabellenstrukturen verändert, mal verschwand vorübergehend die Angabe zum Datenstand von der Landesseite.
In MV und ST veröffentlichen die Behörden das aktuelle Datenmaterial nur im PDF-Format. Mit Tabula (und z.T. Tesseract) konnten wir zwar Zahlen aus den PDFs extrahieren, allerdings ist dieses Vorgehen natürlich äußerst fehleranfällig.
(Die scrapebare interaktive Karte in ST wurde in den vergangenen Wochen immer mal wieder über mehrere Tage nicht aktualisiert, auch unter der Woche. Sie war daher keine adäquate Datenquelle.)
Ein wirklich automatisierter Betrieb unseres Setups war nicht möglich. Aus inhaltlichen (s.o.) und Ressourcengründen haben wir uns gegen das halb-automatische Einsammeln der Landeswerte entschieden.