(c) I. Dahn, 2020

Das SI-Modell und das SIR Modell in der COVID-19-Pandemie in Deutschland im April 2020

Kontext

Wie gut beschreiben mathematische Modelle reale Prozesse?

Die Ausbreitung der COVID-19-Pandemie in Deutschland konnte bis Ende März 2020 gut durch ein exponentielles Modell beschrieben werden. Ende März verschlechterte sich die Passung des exponentiellen Modells zu den gemeldeten Infektionsdaten zusehends. Zu diesem Zeitpunkt traten außerdem in Deutschland umfangreiche Kontaktbeschränkungen in Kraft mit dem Ziel, die Ausbreitung der Pandemie zu verlangsamen.

In diesem Jupyter-Notebook untersuchen wir die Passung der einfachsten Pandemie-Modelle - des SI-Modells und des SIR-Modells - zu den Daten der Pandemie in Deutschland im April 2020, wie sie vom Robert-Koch-Institut zur Verfügung gestellt wurden. Zunächst wird das System von Differentialgleichungen zusammengestellt, das diese Modelle beschreibt. Die zu untersuchende Frage ist, wie die Parameter dieses Differentialgleichungssystems gewählt werden müssen, damit die realen Daten möglichst gut approximiert werden und welche Qualität der Approximation so erreicht werden kann.

Für das SI-Modell bestimmen wir die Parameter mittels logistischer Regression gegen die Lösungsformel des SI-Differentialgleichungssystems. Für das SIR-System steht eine solche Lösung nicht zur Verfügung - hier verwenden wir eine numerische Näherungslösung, die mit Hilfe des Runge-Kutta-Verfahrens berechnet wird. Wir diskutieren dabei auch Möglichkeiten zur Verbesserung der Genauigkeit bzw. zur Reduzierung der erforderlichen Rechenzeit.

Ein abschließendes Fazit fasst die Ergebnisse zusammen.

In der ausführbaren Ansicht dieses Notebooks in CoCalc bzw. im CoCalc-Player können die Eingabezellen editiert und neu berechnet werden um die Verfahren zu prüfen oder sie auf andere Daten anzuwenden.

Dabei müssen die Zellen immer in der gegebenen Reihenfolge ausgeführt werden!

Falls Sie dabei bessere Approximationen oder Fehler finden, so lassen Sie es mich wissen.

Diese Seite wird unter der Creative Commons Lizenz CC BY-NC-SA 4.0 veröffentlicht.

Koblenz im Mai 2020

Dr. Ingo Dahn

Modelle

SI- und SIR-Modell teilen eine Bevölkerung in zwei bzw.drei Gruppen ein:

$S$ : die noch nicht infizierten, aber anfälligen,
$I$ : die infizierten und daher ansteckenden und,
$R$ : die genesenen (oder gestorbenen), und daher nicht mehr ansteckenden Personen.

Differentialgleichungen

Bezeichnen wir die Anzahl der für das Modell wesentlichen Personen mit $N$ , so nehmen die Modelle an, dass $N = S + I + R.$

Die Beziehung zwischen den Größen $S,I$ und $R$ wird im SIR-Modell durch die folgenden Differentialgleichungen beschrieben. $$ \begin{align} \frac{dS}{dt} &= -c \frac{S}{N} I &= -\frac{c}{N} S I\ \frac{dI}{dt} &= c \frac{S}{N} I - w I &= \frac{c}{N} S I - w I\ \frac{dR}{dt} &= w I \end{align} $$

$\frac{dS}{dt} = -c \frac{S}{N} I = -\frac{c}{N} S I$

$\frac{dI}{dt} = c \frac{S}{N} I - w I = \frac{c}{N} S I - w I$

$\frac{dR}{dt} = w I$

Dabei ist $c$ die Infektionsrate und $w$ die Genesungsrate. Das SI-Modell ist der Spezialfall des SIR-Modells der Genesungen und Todesfälle nicht berücksichtigt, d. h. $w=0$ bzw. $R$ ist konstant und damit $S+I=N$ . Für das SI-Modell haben die Differentialgleichungen die Lösung $I(t)=a\frac{N}{a+(N-a)\cdot e^{-ct}}.$

Dabei ist $a=I(0)$ .

Für das vollständige Gleichungsssystem des SIR-Modells ist keine Lösung in geschlossener Form bekannt.

Daten

Im Folgenden wird statt mit Kalender-Daten, mit Tagen seit dem 24.2.2020, dem Beginn der täglichen Datenemeldungen des Robert-Koch-Instituts (Tag 0) gerechnet. Die folgende Tabelle ermöglicht eine Umrechnung.

Tag Nr.	Datum
0	24.2.2020
37	1.4.2020
40	4.4.2020
50	14.4.2020
60	24.4.2020
66	30.4.2020
70	4.5.2020

Es stehen taggenaue Meldungen des RKI zu

gemeldeten Infektionen
geschätzte Genesungen (auf volle 100 gerundet)
gemeldete Todesfälle

zur Verfügung. Der April 2020 umfasst die Tage 37-66.

# Gemeldete Infektionen
infections_reg=[16.0, 18.0, 21.0, 26.0, 53.0, 66.0, 117.0, 150.0, 188.0, 240.0, 400.0, 639.0, 795.0, 902.0, 1139.0, 1296.0, 1567.0, 2369.0, 3062.0, 3795.0, 4838.0, 6012.0, 7156.0, 8198.0, 10999.0, 13957.0, 16662.0, 18610.0, 22672.0, 27436.0, 31554.0, 36508.0, 42288.0, 48582.0, 52547.0, 57298.0, 61913.0, 67366.0, 73522.0, 79696.0, 85778.0, 91714.0, 95391.0, 99225.0, 103228.0, 108202.0, 113525.0, 117658.0, 120479.0, 123016.0, 125098.0, 127584.0, 130450.0, 133830.0, 137439.0, 139897.0, 141672.0, 143457.0, 145694.0, 148046.0, 150383.0, 152438.0, 154175.0, 155193.0, 156337.0, 157641.0, 159119.0, 160758.0, 161703.0, 162496.0, 163175.0, 163860.0, 164807.0, 166091.0, 167300.0, 168531.0, 169218.0, 169575.0, 170508.0, 171306.0, 172239.0, 173152.0, 173772.0, 174355.0, 174697.0, 175210.0, 176007.0, 176752.0, 177212.0, 177850.0, 178281.0, 178570.0, 179002.0, 179364.0, 179717.0]
# Gemeldete Tote
deads_reg=(0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 12.0, 20.0, 31.0, 46.0, 55.0, 86.0, 114.0, 149.0, 198.0, 253.0, 325.0, 389.0, 455.0, 583.0, 732.0, 872.0, 1017.0, 1158.0, 1342.0, 1434.0, 1607.0, 1861.0, 2107.0, 2373.0, 2544.0, 2673.0, 2799.0, 2969.0, 3254.0, 3569.0, 3868.0, 4110.0, 4294.0, 4404.0, 4598.0, 4879.0, 5094.0, 5321.0, 5500.0, 5640.0, 5750.0, 5913.0, 6115.0, 6288.0, 6481.0, 6575.0, 6649.0, 6692.0, 6831.0, 6996.0, 7119.0, 7266.0, 7369.0, 7395.0, 7417.0, 7533.0, 7634.0, 7723.0, 7824.0, 7881.0, 7914.0, 7935.0, 8007.0, 8090.0, 8147.0, 8174.0, 8216.0, 8247.0, 8257.0, 8302.0, 8349.0, 8411.0)
# Gemeldete Genesene
recovered_reg=(0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 13500.0, 16100.0, 18700.0, 21400.0, 23800.0, 26400.0, 28700.0, 30600.0, 33000.0, 46300.0, 49000.0, 53913.0, 57400.0, 60200.0, 64300.0, 68200.0, 72600.0, 77000.0, 81800.0, 85400.0, 88000.0, 91500.0, 95200.0, 99400.0, 103300.0, 106800.0, 109800.0, 112000.0, 114500.0, 117400.0, 120400.0, 123500.0, 126900.0, 129000.0, 130600.0, 132700.0, 135100.0, 137400.0, 139900.0, 141700.0, 143300.0, 144400.0, 145600.0, 147200.0, 148700.0, 150300.0, 151700.0, 152600.0, 153400.0, 154600.0, 155700.0, 156900.0, 158000.0, 159000.0, 159900.0, 160500.0, 161200.0, 162000.0, 162800.0, 163200.0)
dataNr_de=len(infections_reg)
periodStart=37
periodEnd=66
dataRange=range(periodStart,periodEnd+1)
indexRange=range(0,periodEnd+1-periodStart)
def makePoints(Array,Range):
    return [(n,Array[n]) for n in Range]
H_RKI=makePoints(recovered_reg,dataRange)
D_RKI=makePoints(deads_reg,dataRange)
I_RKI=makePoints(infections_reg,dataRange)
print('Daten gelesen')

Daten gelesen

Die Zahl der Genesenen entwickelt sich - seit einem Sprung am 8.4.2020 - kontinuierlich. Diesen Sprung, der durch eine Änderung der Zählweise entstand, korrigieren wir, indem wir die Zahlen der Genesenen vor dem 8.4. (Tag 44 der Datenerfassung) um 30% nach oben korrigieren

H_RKI=[]
for n in dataRange:
    if n < 44:
        H_RKI.append((n,recovered_reg[n]*1.3))
    else:
        H_RKI.append((n,recovered_reg[n]))
print("H_RKI definiert")

H_RKI definiert

Das folgende Diagramm zeigt die vom RKI gemeldeten Daten (einschließlich unserer Korrektur für die Genesenen), wobei die Werte normiert wurden. In absoluten Zahlen waren die maximalen Werte in dieser Zeit

für die gemeldeten Infektionen (kumuliert): 159 119
für die gemeldeten Todesfälle (kumuliert): 6 288
für die geschätzte Zahl der Genesenen (kumuliert): 123 500

def normed(dataPoints):
    maxData=max([p[1] for p in dataPoints])
    return [(p[0],p[1]/maxData) for p in dataPoints]
p1=list_plot(normed(I_RKI),color='blue', legend_label='RKI: Gemeldete Infektionen')
p2=list_plot(normed(D_RKI),color='red',legend_label='RKI: Gemeldete Todesfälle')
p3=list_plot(normed(H_RKI), color='green',legend_label='RKI: Geschätzte Genesene')
show(p1+p2+p3)

Hochrechnung

Im April 2020 wurden überwiegend Personen mit Symptomen getestet. Die Zahl der Test ist nur für die einzelnen Wochen bekannt und schwankt sehr stark:

30.3-5.4.: 408 348
6.4.-13.4.: 379 233
14.4.-21.4.: 330 027
21.4.-28.4.: 467 137

Informationen über Ergebnisse von randomisierten Tests in dieser Zeit liegen nicht vor, was eine Hochrechnung erheblich erschwert. Schätzungen über den Dunkelfaktor $d$ - das Verhältnis der Zahl der Infizierten zur Zahle der gemeldeten Infektionen - schwanken stark (A. Kekule (17.3.20): 4, L. H. Wieler: 2, Universität Göttingen (2.4.2020): 7).

# Annahme: Die Zahl der Infizierten ist das dunkelFaktor-fache der Zahl der gemeldeten Infeltionen
d=10
html(u"Wir rechnen im Folgenden mit einem Dunkelfaktor von $d=%i$."%(d))

Wir rechnen im Folgenden mit einem Dunkelfaktor von $d=10$ .

Bewertung der Modelle

Wir berechnen Funktionen, die die beobachteten Daten möglichst gut erklären sollen. Wie gut eine Datenreihe dataP durch eine Funktion $f$ approximiert wird messen wir mit dem relativen Residuum rR2(dataP,f) wie folgt. Ist $\vec{vd}$ der Vektor der beobachteten Daten und $\vec{vf}$ der Vector der entsprechenden Funktionswerte, so definieren wir $rR2(\vec{vd},f)=\frac{|\vec{vd}-\vec{vf}|}{|\vec{vd}|}$ . Je geringer dieser Wert desto genauer die Approximation.

#Definition Residuum mit relativem Fehler
def rR2(dataP,f):
    return vector(RR,[p[1]-f(x=p[0]) for p in dataP]).norm()/vector(RR,[p[1] for p in dataP]).norm()
print('rR2 definiert')

rR2 definiert

SI-Modell

Zahl der Infektionen

In der logistischen Phase, ab Anfang April, kann das Wachstum der Zahl der gemeldeten Infektionen immer schlechter durch Exponentialfunktionen beschrieben. das Virus stößt - aus welchen Gründen auch immer - auf Faktoren, die seine Ausbreitung behindern (z.B. Senkung der Reproduktionsrate durch Einschränkung sozialer Kontakte, hoher Grad der Durchseuchung der Bevölkerung).

Ein solches Wachstum kann durch eine logistische Funktion $a\cdot \frac{N}{a+(N-a)\cdot e^{-c x}}$ beschrieben werden. Dabei ist $a$ der Anfangswert bei $x=0$ , $N$ ist eine angenommene Obergrenze, der sich die Zahl der Infizierten asymptotisch annähert (Kapazitätsgrenze) und $c$ ist ein Parameter der die Geschwindigkeit dieser Annäherung beschreibt. $c$ und $N$ sind Parameter in der logiszischen Differentialgleichung $\dot{I}=\frac{c}{N}\cdot S \cdot I = \frac{c}{N} \cdot (N-I) \cdot I.$

Die logistische Funktion ergibt sich als Lösung der logistischen Differentialgleichung die ihrerseits aus dem SI-Modell der Entwicklung von Epidemien abgeleitet ist.

Die Zahl der Infizierten ergibt sich aus dem $d$ -fachen der vom RKI gemeldeten Infizierten einschließlich Genesenen und Toten, da das SI-Modell diese nicht berücksichtigt: $I_{SI} = d\cdot I_{RKI}$

Wir testen auch, wie gut sich das SI-Modell zur Beschreibung der Zahl der Toten anwenden lässt, die wir unverändert aus den RKI-Daten übernehmen:

$D_{SI} = D_{RKI}$

Dies ist von Interesse, da wir annehmen, dass die Entwicklung der Zahl der Toten die Tendenz der Ausbreitung der Pandemie - mit einer Verzögerung von etwa 10 Tagen zwische Meldung der Krankheit und Tod - besser widerspiegelt als die Zahl der gemeldeten Infektionen, die zusätzlich vom Umfang des Testens abhängig ist. Dabei ist zu erwarten, dass für die Differentialgleichungen zur Beschreibung der Todesfälle andere Parameter $a,N,c$ gewählt werden müssen, als zur Beschreibung der gemeldeten Infektionen.

Die Entwicklung der Zahl der gemeldeten Infektionen im März ließ sich gut durch eine Exponentialfunktion mit einem Anfangswert $a=400$ und einem Exponenten $0.14x$ beschreiben. Im logistischen Modell ist der Exponent $cx$ , wobei $N$ , als $d$ -faches des Maximalwerts der gemeldeten Infektionen, in der Größenordnung von mehreren $1 000 000 = 10^6$ zu erwarten ist.

I_SI=[(I_RKI[n][0],d*I_RKI[n][1]) for n in range(0,len(I_RKI))]
D_SI=D_RKI
print('I_SI und D_SI definiert')

I_SI und D_SI definiert

Die Approximation der Daten $I_{SI}$ mit Hilfe der logistischen Regression durch die Funktion find_fit erweist sich als schwierig. Ob und wie gut dies funktioniert hängt stark von den gewählten Anfangswerten ab. Mit den Anfangswerten $a=400, N=1.6\cdot 10^{6}, c=0.14$ erhalten wir kein brauchbares Ergebnis: Versuchen Sie es elbst:

@interact
def _(a_0=slider(100,10000,step_size=100,default=400,label="$a_0$"),N_0=slider(10^6,2*10^6,step_size=100,default=1.6*10^6,label="$N_0$"),c_0=slider(0,0.5,step_size=0.001,default=0.14,label="$c_0$")):
    var('x,a,N,c')
    f_log(x)=a*N/(a+(N-a)*e^(-c*x))
    q=find_fit(I_SI, f_log, parameters=[a,N,c],initial_guess=(a_0,N_0,c_0),solution_dict = True)
    show("a=",q[a]," N=",q[N]," c=",q[c])
    show(f_log(a=q[a],N=q[N],c=q[c]))
    g(x)=f_log(x,a=q[a],N=q[N],c=q[c])
    show("Relatives Residuum: ",rR2(I_SI,g))
    show(list_plot(I_SI)+plot(g, periodStart, periodEnd, color='red'))

Interactive function <function _ at 0x7fa660b050d0> with 3 widgets
  a_0: TransformIntSlider(value=400, descri…

Da find_fit uns kein brauchbares Ergebnis liefert, wählen wir eine andere Regressionsmethode. Unsere globale Regression geht für alle Parameter der logistischen Differentialgleichung von einem Bereich aus, in dem wir geeignete Parameter vermuten. Dieser Bereich wird glichmäßig in Teilbereiche aufgeteilt, deren Anzahl durch eine natürliche Zahl - die Granularität gran gegeben ist. Für jedes Tupel von Parametern aus dem so definierten Gitter berechnen wir das relative Residuum bezüglich unserer Datenreihe. Nachdem dies für alle Tupel berechnet wurde, geben ein Tupel zurück, für das das relative Residuum minimal ist sowie den Wert des Residuums.

Da wir 3 Parameter, $a,N,c$ , suchen haben wir die Berechnungen für $g^3$ Tupel durchzuführen wenn wir mit gran= $g$ rechnen. Bei $g=10$ , das wir im Folgenden verwenden werden, sind dies 1 000 Tupel, bei $g=100$ sind es 1 000 000 Tupel - die Rechenzeit ver-1000-facht sich!

def regression_g(dataP,f,aRange,SRange,kRange,gran):
    a0=aRange[0];S0=SRange[0];k0=kRange[0];
    ad=(aRange[1]-aRange[0])/gran;Sd=(SRange[1]-SRange[0])/gran;kd=(kRange[1]-kRange[0])/gran;
    argmin=[a0,S0,k0]
    vmin=rR2(dataP,f(a=a0,S=S0,k=k0))
    for ai in range(0,gran):
        ax=a0+ai*ad
        for Si in range(0,gran):
            Sx=S0+Si*Sd
            for ki in range(0,gran):
                kx=k0+ki*kd
                vx=rR2(dataP,f(x,a=ax,S=Sx,k=kx))
                if vx<vmin:
                    argmin=[ax,Sx,kx]
                    vmin=vx
    return [argmin,vmin]
print('regression_g definiert')

regression_g definiert

Wir suchen $a \in [200,10^4], N\in [10^6,2\cdot 10^6], c\in [0.1,0.2]$ mit einer Granularität von 10. Experimentieren Sie mit anderen Werten!

f_log(x,a,S,k)=a*S/(a+(S-a)*e^(-k*x))
reg=regression_g(I_SI,f_log,(200,10000),(1000000,2000000),(0.1,0.2),10)
a_inf=reg[0][0];S_inf=reg[0][1];c_inf=reg[0][2]
show("a=",a_inf," N=",S_inf," c=",c_inf)
show(f_log(a=reg[0][0],S=reg[0][1],k=reg[0][2]))
show("Relativer Fehler: ",reg[1])
list_plot(I_SI)+plot(f_log(a=reg[0][0],S=reg[0][1],k=reg[0][2]), periodStart, periodEnd, color='red')

$\newcommand{\Bold}[1]{\mathbf{#1}}\verb|a=| 9020 \phantom{\verb!x!}\verb|N=| 1600000 \phantom{\verb!x!}\verb|c=| 0.130000000000000$

$\newcommand{\Bold}[1]{\mathbf{#1}}\frac{721600000}{79549 \, e^{\left(-0.130000000000000 \, x\right)} + 451}$

$\newcommand{\Bold}[1]{\mathbf{#1}}\verb|Relativer|\phantom{\verb!x!}\verb|Fehler:| 0.0203956289337642$

Wir erhalten einen Fehler von etwa 2%. Sie können diesen Fehler - bei längerer Rechenzeit - verringern indem Sie die Granularität erhöhen.

Als Gegenmittel gegen das Anwachsen der Rechenzeit können Sie aber auch die Größe der zu durchsuchenden Intervalle verkleinern. Sie können etwa zunächst mit der Granularität 10 rechnen und dann noch einmal mit der Granularität 10 für die Intervalle mit $\frac{1}{10}$ der bisherigen Länge um die im ersten Schritt erhaltenen Parameterwerte. Dann rechnen Sie, aufgrund der kleineren Intervalle, mit dem 100fachen der bisherigen Genauigkeit, aber die Rechenzeit dafür hat sich nur verdoppelt, nicht ver-1000-facht! (Das Teilgebiet der Mathematik, dass den Ressourcenbedarf von Algorithmen untersucht ist die Komplexitätstheorie)

Mit der Funktion g_regression, die in der folgenden Zelle definiert wird, können Sie dieses Verfahren depthmal durchführen. Die Funktion gibt die gefundenen Parameter und das erreichte relative Residuum zurück. Versuchen Sie es!

def g_regression (dataP,f,aRange,SRange,kRange,gran,depth):
    ac=(aRange[1]+aRange[0])/2;Sc=(SRange[1]+SRange[0])/2;kc=(kRange[1]+kRange[0])/2;
    add=(aRange[1]-aRange[0])/2;Sdd=(SRange[1]-SRange[0])/2;kdd=(kRange[1]-kRange[0])/2;rc=10000;
    for d in range(0,depth):
        adRange=(ac-add,ac+add);SdRange=(Sc-Sdd,Sc+Sdd);kdRange=(kc-kdd,kc+kdd);
        print(adRange,SdRange,kdRange)
        reg=regression_g(dataP,f,adRange,SdRange,kdRange,gran)
        ac=reg[0][0];Sc=reg[0][1];kc=reg[0][2]
        add=add/gran;Sdd=Sdd/gran;kdd=kdd/gran
        rc=reg[1]
    return [[ac,Sc,kc],rc]
print('g_regression definiert')

g_regression definiert

Wir berechnen analog ein Modell für die Zahl der Toten. Bei Vorgaben mit Toleranzen von $\pm 50$ für $a$ , $\pm 5000$ für $N$ und $\pm 0.01$ für $c$ und 10 Schritten für jedes Argument erhalten wir eine Approximation mit einem Residuum von 3.5 %. Bei 2-maliger Anwendung der Regression sinkt der Relative Fehler auf 3.1 % mit den Werten $a=19, N=8 200, c=0.1108$ .

f_log(x,a,S,k)=a*S/(a+(S-a)*e^(-k*x))
reg=regression_g(D_SI,f_log,(0,100),(7000,17000),(0.10,0.12),10)
a_inf=reg[0][0];N_inf=reg[0][1];c_inf=reg[0][2]
show("a=",a_inf," N=",N_inf," c=",c_inf)
show(f_log(a=reg[0][0],S=reg[0][1],k=reg[0][2]))
show("Relativer Fehler: ",reg[1])
list_plot(D_SI)+plot(f_log(a=reg[0][0],S=reg[0][1],k=reg[0][2]), periodStart, periodEnd, color='red')

$\newcommand{\Bold}[1]{\mathbf{#1}}\verb|a=| 20 \phantom{\verb!x!}\verb|N=| 8000 \phantom{\verb!x!}\verb|c=| 0.110000000000000$

$\newcommand{\Bold}[1]{\mathbf{#1}}\frac{8000}{399 \, e^{\left(-0.110000000000000 \, x\right)} + 1}$

$\newcommand{\Bold}[1]{\mathbf{#1}}\verb|Relativer|\phantom{\verb!x!}\verb|Fehler:| 0.0344908020509210$

SIR-Modell

Für das SIR-Modell multiplizieren wir die Zahl der vom RKI gemeldeten genesenen mit dem Dunkelfaktor um die Zahl der Genesenen $H_{SIR}$ für das SIR-Modell abzuschätzen.

$H_{SIR} = d\cdot H_{RKI}$

Die Zahl der Verstorbenen übernehmen wir unverändert.

$D_{SIR} = D_{RKI}$

Die Zahl der Infizierten ergibt sich aus dem $d$ -fachen der vom RKI gemeldeten Infizierten ohne Genesene und Tote:

$I_{SIR} = d\cdot (I_{RKI}-H_{RKI}-D_{RKI})$

Die Zahl $R$ der nicht infektiösen für das SIR-Modell ist die Summe aus der Zahl der Toten und der Zahl der Genesenen des Modells.

$R_{SIR} = D_{SIR}+H_{SIR}$

Schließlich ergibt sich die Zahl $I$ der Infizierbaren des Modells durch Abzug der Infizierten und der nicht infektiösen von der Gesamtzahl:

$S_{SIR} = N - I_{SIR} - R_{SIR}$

Beachten Sie, dass die Datenreihen $I_{SIR}$ und $R_{SIR}$ sich aus den Angaben des RKI berechnen lassen, während $S_{SIR}$ von dem zu schätztenden Wert des Parameters $N$ des Modells abhängt. Statt der Parameter $a,N,c$ , für die wir im SI-Modell mögliche Werte $a=19, N=1 600 000, c=0.1108$ , erhalten haben, benötigen wir im SIR-Modell die Parameter $N,c,w$ für die Berücksichtigung von Genesungen und Sterbefällen. Statt des geschätzten Anfangswertes $a$ des SI-Modells verwenden wir die Werte der Datenreihen zu Beginn der Periode.

Wir suchen Werte für diese Parameter, so dass die Lösungen des SIR-Differentialgleichungssystems die Werte der Datenreihen $S_{SIR},I_{SIR}$ und $R_{SIR}$ von den Funktionen $S,I$ und $R$ möglichst gut approximiert werden. Für $N$ können wir dann die Kapazitätsgrenze des berechneten Modells nehmen.

N_SIR=1.6*10^6
H_SIR=[(p[0],d*p[1]) for p in H_RKI]
I_SIR=[(I_RKI[n][0],d*(I_RKI[n][1]-H_RKI[n][1]-D_RKI[n][1])) for n in range(0,len(I_RKI))]
D_SIR=D_RKI
R_SIR=[(D_SIR[n][0],D_SIR[n][1]+H_SIR[n][1]) for n in range(0,len(D_SIR))]
def S_N(P1,P2,N):
    return [(P1[n][0],N-P1[n][1]-P2[n][1]) for n in range(0,len(P1))]
S_SIR=S_N(I_SIR,R_SIR,N_SIR)
print('SIR-Datenreihen definiert')

SIR-Datenreihen definiert

Wir definieren die Differentialgleichungen und ihre numerischen Lösungen mit dem Runge-Kutta-Verfahren. Dabei werden die Anfangswerte zum Beginn der Periode vorgegeben und das Runge-Kutta-Verfahren berechnet schrittweise den Verlauf der Lösungen des Differentialgleichungssystems.

I,R,S,t = var('I R S t')
def DGL_right(N,c,w):
     return [-c*(S/N)*I,c*(S/N)*I -w*I,w*I]
def SIR_solve(N,c,w,Ics,Start,End,Step):
    sol=desolve_system_rk4(DGL_right(N,c,w), [S,I,R], ics=Ics, ivar=t, end_points=[Start,End], step=Step)
    S_sol=[(s[0],s[1]) for s in sol]
    I_sol=[(s[0],s[2]) for s in sol]
    R_sol=[(s[0],s[3]) for s in sol]
    return [S_sol,I_sol,R_sol]
print(u'Lösung des DGL-Systems definiert')

Lösung des DGL-Systems definiert

Das Runge-Kutta-Verfahren zur numerischen Lösung von Differentialgleichungen liefert statt eines Funktionsausdrucks drei Datenreihen. Dies erfordert Anpassungen unserer Werkzeuge zur Fehlerabschätzung und Regression.

Die Funktion regression_l_g erhält als Parameter die realen Datenreihen für die Infizierten $I$ sowie für die Genesenen und Verstorbenen $R$ , die zu durchsuchenden Bereiche für die Parameter $N,c,w$ und die Granularität $gran$ der Suche.

Die dritte Datenreihe $S$ wird aus den beiden gegebenen und dem aktuellen wert des Parameters $N$ mit Hilfe der Funktion makeS berechnet und bei Änderungen dieses Parameters angepasst. Wir suchen nach Parameterwerten für die das Maximum des relativen Fehlers der numerischen Lösung des Differentialgleichungssystems verglichen mit den aktuellen Datenreihen möglichst klein wird.

#Definition Residuum mit relativem Fehler für Listen von Datenpunkten
def rR2_l(dataP,dataQ):
    return vector(RR,[dataP[n][1]-dataQ[n][1] for n in range(0,len(dataP))]).norm()/vector(RR,[p[1] for p in dataP]).norm()

def makeS(N,dataP):
    return [(dataP[0][n][0],N-dataP[0][n][1]-dataP[1][n][1]) for n in range(0,len(dataP[0]))]

def regression_l_g(dataP,uRange,vRange,wRange,gran):
    u0=uRange[0];v0=vRange[0];w0=wRange[0];
    ud=(uRange[1]-uRange[0])/gran;vd=(vRange[1]-vRange[0])/gran;wd=(wRange[1]-wRange[0])/gran;
    argmin=[u0,v0,w0]
    valmin=1000
    for ui in range(0,gran+1):
        print('.',end='',flush=True)
        ux=u0+ui*ud
        # Anpassen von S an neue Summe
        Sc=makeS(ux,dataP)
        for vi in range(0,gran+1):
            vx=v0+vi*vd
            for wi in range(0,gran+1):
                wx=w0+wi*wd
                solInf=SIR_solve(ux,vx,wx,[periodStart,Sc[0][1],dataP[0][0][1],dataP[1][0][1]],periodStart,periodEnd,1)
                ru=rR2_l(Sc,solInf[0])
                rv=rR2_l(dataP[0],solInf[1])
                rw=rR2_l(dataP[1],solInf[2])
                valx=max([ru,rv,rw])
                if valx < valmin:
                    argmin=[ux,vx,wx]
                    valmin=valx
    return [argmin,valmin]
print('rR2_l und regression_l_g definiert')

rR2_l und regression_l_g definiert

Wir berechnen die Wertereihen des Modells für S,I und R mit unserer Funktion regression_l_g. Werden dabei für jede der Parameter $N,c,w$ 10 Schritte vorgesehen, so muss dabei das Runge-Kutta-Verfahren etwa 120 000 Werte berechnen - es kann also einige Minuten dauern. Wir rechnen deshalb hier nur mit 5 Schritten. Sie können das Ergebnis verbessern indem Sie den letzten Parameter von regression_l in Zeile 3 der folgenden Zelle erhöhen.

c0=0.1108;w0=0;N0=1.6*10^6;
NRange=(1000000,2000000); cRange=(0.10,0.14); wRange=(0,0.2)
reg=regression_l_g([I_SIR,R_SIR],NRange,cRange,wRange,5)
show("N=",reg[0][0],", c=",reg[0][1],", w=",reg[0][2])
SInf=makeS(reg[0][0],[I_SIR,R_SIR])
sol=SIR_solve(reg[0][0],reg[0][1],reg[0][2],[periodStart,SInf[0][1],I_SIR[0][1],R_SIR[0][1]],periodStart,periodEnd,1)
rMax=max([rR2_l(SInf,sol[0]),rR2_l(I_SIR,sol[1]),rR2_l(R_SIR,sol[2])])
show("Relativer Fehler: ",rMax)
pS=list_plot(SInf,color='blue'); qS=list_plot(sol[0],color='blue',plotjoined=True,legend_label="Infizierbar")
pI=list_plot(I_SIR,color='red'); qI=list_plot(sol[1],color='red',plotjoined=True,legend_label="Infiziert")
pR=list_plot(R_SIR,color='green'); qR=list_plot(sol[2],color='green',plotjoined=True,legend_label="Genesen oder Verstorben")
show(pS+qS+pI+qI+pR+qR)

......

$\newcommand{\Bold}[1]{\mathbf{#1}}\verb|N=| 2000000 \verb|,|\phantom{\verb!x!}\verb|c=| 0.140000000000000 \verb|,|\phantom{\verb!x!}\verb|w=| 0.0800000000000000$

$\newcommand{\Bold}[1]{\mathbf{#1}}\verb|Relativer|\phantom{\verb!x!}\verb|Fehler:| 0.205239903601474$

Mit der Funktion g_regression_l können wir versuchen, die in einem Regressionsschritt gefundenen Parameter in weiteren Regressionsschritten feiner zu variieren. Wie oft dies erfolgt wird durch den Parameter depth festgelegt.

def g_regression_l (dataP,uRange,vRange,wRange,gran,depth):
    uc=(uRange[1]+uRange[0])/2;vc=(vRange[1]+vRange[0])/2;wc=(wRange[1]+wRange[0])/2;
    udd=(uRange[1]-uRange[0])/2;vdd=(vRange[1]-vRange[0])/2;wdd=(wRange[1]-wRange[0])/2;rc=10000;
    for d in range(0,depth):
        print('+',end='',flush=True)
        udRange=(uc-udd,uc+udd);vdRange=(vc-vdd,vc+vdd);wdRange=(wc-wdd,wc+wdd);
        reg=regression_l_g(dataP,udRange,vdRange,wdRange,gran)
        # reg hat die Form [aktuelle Parameter, max der Residuen]
        uc=reg[0][0];vc=reg[0][1];wc=reg[0][2];
        udd=udd/gran;vdd=vdd/gran;wdd=wdd/gran
        rc=reg[1]
    return [[uc,vc,wc],rc]
print('g_regression_l definiert')

g_regression_l definiert

Wir können unterschiedliche Strategien zur Reduzierung der Rechenzeit anwenden:

Mit $gran=8, depth=2$ rechnen wir in jedem Regressionsdurchlauf genauer, brauchen aber weniger Durchläufe als mit $gran=2,depth=8$ . Im ersteren Fall sind etwa 131 000 Datenpunkte zu berechnen, im letzteren Fall nur ca. 19 000. Bildlich gesprochen fischen wir im ersteren Fall mit einem feineren Netz und im letzteren Fall dafür öfter.

c0=0.1108;w0=0;N0=1.6*10^6;
NRange=(1000000,2000000); cRange=(0.10,0.14); wRange=(0,0.2)
# Die letzten beiden Parameter haben großen Einfluss auf die Rechenzeit
reg=g_regression_l([I_SIR,R_SIR],NRange,cRange,wRange,2,8)
# reg hat die Form [aktuelle Parameter, max der Residuen]
show("N=",(reg[0][0]).n(),", c=",reg[0][1],", w=",reg[0][2])
SInf=makeS(reg[0][0],[I_SIR,R_SIR])
sol=SIR_solve(reg[0][0],reg[0][1],reg[0][2],[periodStart,SInf[0][1],I_SIR[0][1],R_SIR[0][1]],periodStart,periodEnd,1)
pS=list_plot(SInf,color='blue'); qS=list_plot(sol[0],color='blue',plotjoined=True,legend_label="Infizierbar")
pI=list_plot(I_SIR,color='red'); qI=list_plot(sol[1],color='red',plotjoined=True,legend_label="Infiziert")
pR=list_plot(R_SIR,color='green'); qR=list_plot(sol[2],color='green',plotjoined=True,legend_label="Genesen oder Verstorben")
rMax=max([rR2_l(SInf,sol[0]),rR2_l(I_SIR,sol[1]),rR2_l(R_SIR,sol[2])])
show("Relativer Fehler: ",rMax)
show(pS+qS+pI+qI+pR+qR)

+...+...+...+...+...+...+...+...

$\newcommand{\Bold}[1]{\mathbf{#1}}\verb|N=| 1.90234375000000 \times 10^{6} \verb|,|\phantom{\verb!x!}\verb|c=| 0.154843750000000 \verb|,|\phantom{\verb!x!}\verb|w=| 0.0671875000000000$

$\newcommand{\Bold}[1]{\mathbf{#1}}\verb|Relativer|\phantom{\verb!x!}\verb|Fehler:| 0.0952032990538443$

Fazit

Durch logistische Regression haben wir die Zahl der COVID-19-Infizierten (hochgerechnet) und Toten in Deutschland im April 2020 durch SI-Modelle mit einer relativen Genauigkeit von 3% darstellen können. Für das SIR-Modell, das die Zahlen der infizierbaren, Infizierten und Genesenen bzw. Verstorbenen berechnet, erreichten wir mit numerischen Lösungen der SIR-Differentialgleichungen nach dem Runge-Kutta-Verfahren eine relative Genauigkeit von 10%. Für die Regression wurden Algorithmn verwendet, die einen Anfangsbereich systematisch nach Werten mit einem minimalen Residuum absuchen. Es wurden Wege diskutiert um die Genauigkeit der Näherung zu steigern oder die benötigte Rechenzeit zu senken. Der Leser wird ermutigt, im Notebook selbst mit diesen Algorithemn zu experimentieren um bessere Näherungen zu finden.