Thread by @marcelpauly, Wir nutzen in unseren Grafiken auf http://SPIEGEL.de jetzt nicht mehr die vom [...]

Wir nutzen in unseren Grafiken auf http://SPIEGEL.de jetzt nicht mehr die vom RKI veröffentlichte Sieben-Tage-Inzidenz, sondern berechnen die Werte für alle Landkreise und Städte selbst. Wie und warum – das habe ich hier aufgeschrieben: https://www.spiegel.de/wissenschaft/medizin/corona-zahlen-welche-landkreise-ueber-dem-grenzwert-der-sieben-tage-inzidenz-liegen-a-e48c758d-d52a-4389-b881-f3ed78a4dab9

Corona-Zahlen: Welche Landkreise über dem Grenzwert der Sieben-Tage-Inzidenz liegen - DER SPIEGEL -...

Die Zahl der Corona-Neuinfektionen entscheidet über Verschärfung und Lockerung von Gegenmaßnahmen. Welche Regionen liegen über der Grenze? Und warum kursieren so unterschiedliche Werte? Der Überblick.

http://SPIEGEL.de

Hintergrund ist unsere Recherche über die zu niedrigen Inzidenzwerte des RKI: https://www.spiegel.de/panorama/gesellschaft/corona-daten-das-robert-koch-institut-vermeldet-haeufig-falsche-sieben-tage-inzidenzen-a-8695fde3-38ae-4125-89d9-2942bb2ffce6

Corona-Daten: Darum sind die RKI-Zahlen häufig viel zu niedrig - DER SPIEGEL - Panorama

Die Neuinfektionen der vergangenen sieben Tage sind der entscheidende Maßstab in der Pandemie. Doch eine Auswertung zeigt: Das Robert Koch-Institut liegt oft daneben.

https://www.spiegel.de/panorama/gesellschaft/corona-daten-das-robert-koch-institut-vermeldet-haeufig-falsche-sieben-tage-inzidenzen-a-8695fde3-38ae-4125-89d9-2942bb2ffce6

Damals hatte ich angekündigt, dass wir künftig die Werte der Landesbehörden nutzen wollen. Wir haben uns nun aus methodischen und technischen Gründen anders entschieden. https://twitter.com/marcelpauly/status/1319237925167632386

https://twitter.com/marcelpauly/status/1319237925167632386

Auf die methodisch-inhaltlichen Überlegungen gehe ich im eingangs verlinkten Artikel ein. Für die #ddj- und #OpenData-Community ist vielleicht auch die technische Seite interessant. Dazu an dieser Stelle ein paar Worte:

Nur wenige Bundesländer haben in den zurückliegenden Monaten eine vernünftige Infrastruktur zur Veröffentlichung maschinenlesbarer Corona-Daten aufgebaut. Die von uns in Python geschriebenen Scraper für die 16 Länder waren zwar prinzipiell in der Lage, die Daten einzulesen.

Allerdings verging in unserem zweiwöchigen Test kaum ein Tag, an dem wir nicht händisch eingreifen mussten. Im besten Fall handelte es sich um Veränderungen ggü. dem Vortag, auf die zwar unsere Plausibilitätschecks reagierten, die wir aber nach einem Abgleich freigeben konnten.

Aber wiederholt waren Anpassungen in den Skripten notwendig. Mal wurden Tabellenstrukturen verändert, mal verschwand vorübergehend die Angabe zum Datenstand von der Landesseite.

In MV und ST veröffentlichen die Behörden das aktuelle Datenmaterial nur im PDF-Format. Mit Tabula (und z.T. Tesseract) konnten wir zwar Zahlen aus den PDFs extrahieren, allerdings ist dieses Vorgehen natürlich äußerst fehleranfällig.

(Die scrapebare interaktive Karte in ST wurde in den vergangenen Wochen immer mal wieder über mehrere Tage nicht aktualisiert, auch unter der Woche. Sie war daher keine adäquate Datenquelle.)

Ein wirklich automatisierter Betrieb unseres Setups war nicht möglich. Aus inhaltlichen (s.o.) und Ressourcengründen haben wir uns gegen das halb-automatische Einsammeln der Landeswerte entschieden.

Latest Threads Unrolled: