426 Originalarbeit

Über- und Unterschätzung von Erfolgsquoten Over- and Underestimation of Success Rates

Institut

Schlüsselwörter ▶ Responderanalyse ● ▶ klinische Relevanz ● ▶ wahre Veränderungswerte ● ▶ Verständlichkeit von ● Studienergebnissen Key words ▶ responder analysis ● ▶ minimal important ● difference ▶ true change scores ● ▶ intelligibility of study results ●

Bibliografie DOI http://dx.doi.org/ 10.1055/s-0034-1372620 Online-Publikation: 7.7.2014 Gesundheitswesen 2015; 77: 426–431 © Georg Thieme Verlag KG Stuttgart · New York ISSN 0941-3790 Korrespondenzadresse Nora Eisemann, Dipl.-Stat. Institut für Krebsepidemiologie Universität zu Lübeck Ratzeburger Allee 160 23562 Lübeck [email protected]

J. Höder1, N. Eisemann2, A. Hüppe1 1 2

Institut für Sozialmedizin und Epidemiologie, Universität zu Lübeck Institut für Krebsepidemiologie, Universität zu Lübeck

Zusammenfassung

Abstract

Bei Interventionsstudien werden häufig Fragebögen zur Erfassung von patient reported outcomes eingesetzt. Bei indirekter Veränderungsmessung kann man die Probanden in „Erfolgreiche“ und „Erfolglose“ einteilen, indem man eine kritische Schwelle der Messwertdifferenzen (minimal important difference, MID) definiert. Wegen der unvermeidlichen Messfehler kommt es zu Fehlklassifikationen. Falsch Positive und falsch Negative gleichen sich dabei in der Regel nicht aus: Liegt die MID über der durchschnittlichen Differenz, werden die Erfolge überschätzt. Liegt die MID unter der durchschnittlichen Differenz, werden die Erfolge unterschätzt. Der Fehler kann erheblich sein. Unter den Annahmen der klassischen Testtheorien lässt sich der Anteil der wahren Erfolge berechnen. Es wird ein neues, einfaches Rechenverfahren vorgestellt, das messfehlerbereinigte Erfolgsquotenschätzungen vornehmen kann. Anhand von echten Daten werden die Konsequenzen des Verfahrens demonstriert. Es wird empfohlen, diese wahren Erfolge anzugeben. Dies gilt auch für Vergleiche mit Kontrollbedingungen.

The patient reported outcome in interventional studies is often measured with questionnaires at baseline and after the intervention. A person whose difference in outcome exceeds a critical threshold (the minimal important difference, MID) is classified as a responder, otherwise as a non-responder. The generally low reliability of differences causes misclassifications. False positives and false negatives usually do not cancel out: an MID above the average difference results in an overestimated proportion of responders, while an MID below the average difference results in an underestimated proportion of responders. Such misclassifications can be substantial. We introduce a new and simple method for estimating the true proportion of responders which is based on the assumptions of classical test theory. The consequences of the method are demonstrated with empirical data. It is recommended to report the estimates of true responders. This applies to settings with one study group as well as to settings with an additional control group.

Hintergrund

kenmaße führen hier nicht weiter. Welcher Arzt, welche Patientin kann sich unter einer Effektstärke von 0,5 in einem Fragebogen zur gesundheitsbezogenen Lebensqualität etwas Konkretes vorstellen? Einen Ausweg bietet die Einführung von Erfolgsschwellen: Man legt fest, wie stark sich jemand in einem Fragebogen verändern muss, damit die Intervention als „erfolgreich“ gelten soll. Das Ergebnis lässt sich dann in den leicht verständlichen natürlichen Zahlen, relativen Häufigkeiten oder einer number needed to treat darstellen. Diese Responderanalyse hat mit 2 Schwierigkeiten zu kämpfen. Die erste: Es gibt kein allgemein





Berichte über Wirksamkeit und Nutzen von Interventionen sollen bei Entscheidungen helfen. Dazu müssen sie Aussagen zur klinischen Relevanz der Ergebnisse enthalten – und zwar in einer Form, die für Ärztinnen1, Patienten und andere Betroffene verständlich ist. Diese beiden Forderungen sind nicht immer leicht zu erfüllen, etwa wenn es sich bei den Outcome-Maßen um unanschauliche Summenscores von Fragebögen handelt. Die oft angeführten Effektstär1

Wir verwenden abwechselnd männliche und weibliche Formen. Gemeint sind immer beide Geschlechter.

Höder J et al. Über- und Unterschätzung von … Gesundheitswesen 2015; 77: 426–431



Heruntergeladen von: University of Connecticut. Urheberrechtlich geschützt.

Autoren

Originalarbeit 427

Wir gehen von folgendem Modell3 aus: Die klassische Testtheorie nimmt an, jeder beobachtete Messwert sei die Summe aus einem wahren Wert und einem Messfehler, die Messfehler seien normalverteilt mit dem Mittelwert null und Messfehler und wahre Werte seien unabhängig voneinander. Danach setzt sich die Erstmessung aus wahrem Wert und Messfehler zusammen; die beobachtete Varianz ist gleich der Summe aus den Varianzen der wahren Werte und der Messfehler. Die Zweitmessung enthält den wahren Wert der Erstmessung, einen Messfehler, der unabhängig von dem der Erstmessung ist (aber dieselbe Varianz hat), und einen weiteren Summanden. Dieser entspricht der individuell unterschiedlichen Interventionswirkung und sei ebenfalls normalverteilt und unabhängig von Erstmessung und Messfehlern.4 Die beobachtete Varianz der Zweitmessung setzt sich folglich additiv zusammen aus der Varianz der wahren Werte der Erstmessung, der Fehlervarianz der Zweitmessung und der Varianz der Interventionswirkung. Daraus folgt: Wenn man die Differenz der beobachteten Varianzen von Erst- und Zweitmessung bildet, erhält man die Varianz der Interventionswirkung – also der Varianz der wahren Veränderung. In Formelsprache: (1)

2 mit swD : geschätzte5 Varianz der wahren Differenzen, s22 : Varianz der Zweitmessung und s12 : Varianz der Erstmessung. Wie verhält sich diese wahre Varianz zur Varianz der beobachteten Veränderungswerte? Diese ergibt sich nach der bekannten Kovarianzformel (z. B. [12], S. 117)

2

In der Literatur finden sich neben MID zahlreiche Ausdrücke, die dasselbe oder etwas Ähnliches oder Verwandtes bezeichnen. In [1] werden 31 Bezeichnungen oder Definitionen aufgeführt. 3 Eine hervorragende Einordnung und Beurteilung des Themas der Veränderungsmessungen geben Rogosa et al. [13]. 4 Die Unabhängigkeit der wahren Veränderungswerte von den wahren Werten der Erstmessung ist nicht immer gegeben. Wir gehen weiter unten darauf ein. 5

2 : Varianz der beobachteten Veränderungswerte und r1;2: mit sbD Korrelation der Erst- und Zweitmessung. Die Differenz zwischen beobachteter und geschätzter wahrer Varianz beträgt also 2 2 sbD − swD = 2 s12 − 2r1;2 ⋅ s1 ⋅ s2

(2)–(1)

Wie man der Formel entnehmen kann, hängt die Größe der Differenz von den Varianzen und der Korrelation der beiden Messungen ab. Die Varianz der wahren Veränderungswerte kann dabei theoretisch kleiner oder größer sein als die Varianz der beobachteten Veränderungswerte. In der Praxis der Versorgungsforschung ergeben sich jedoch häufig Korrelationen zwischen Erst- und Zweitmessung von mehr als 0,50 und eher geringe Unterschiede zwischen den Varianzen der Erst- und Zweitmessung, sodass in aller Regel die Varianz der wahren Veränderungswerte kleiner ausfällt als die Varianz der beobachteten Veränderungswerte.

Als geschätzter Parameter müsste die Varianz eigentlich als Ŝ notiert werden. Wir lassen das Akzentzeichen aus Gründen der Lesbarkeit weg.

listischen Beispiel die unterschiedlichen Verteilungen bei einer beobachteten Varianz der Veränderungswerte von 100 und einer wahren Varianz von 25. Beide Kurven zeigen einen Gipfel bei der durchschnittlichen Veränderung (in diesem Falle bei 10). Links und rechts davon liegt jeweils die Hälfte der Gruppe. Im mittleren Bereich (ca. 3–17) gibt es mehr wahre als beobachtete Veränderungen. In den äußeren Bereichen überwiegen dagegen die beobachteten Fälle. Insgesamt gleichen sich scheinbare Veränderungen von mehr als 10 Punkten und scheinbares Ausbleiben dieser Veränderungen aus. Nehmen wir nun an, es gäbe gute Gründe dafür, die Schwelle für substanzielle Verbesserungen höher anzusetzen als die durchschnittliche Veränderung, in unserem Beispiel auf MID = 20. Jetzt sieht man unmittelbar: Die Anzahl der beobachteten Fälle ( = die Fläche unter der gepunkteten Kurve), die eine substanzielle Veränderung ≥ 20 durchmachen, ist deutlich größer als die Anzahl der wahren substanziell verbesserten Fälle. Der Unterschied ist

relative Häufigkeitsdichte



2 WD

(2)

Die minimal important difference ▶ Abb. 1 veranschaulicht an einem fiktiven, gleichwohl reaDie ●

Die Varianzen der wahren und der beobachteten Veränderungswerte

2 swD = s22 − s12

2 sbD = s12 + s22 − 2r1;2 ⋅ s1 ⋅ s2

–20

MID

–10

0 10 20 Veränderungswerte wahr

30

40

beob

Abb. 1 Die Abbildung veranschaulicht, dass es weniger wahre als beobachtete Fälle gibt, die die MID überschreiten, wenn die MID über der durchschnittlichen Veränderung liegt. Der Erfolg wird überschätzt.

Höder J et al. Über- und Unterschätzung von … Gesundheitswesen 2015; 77: 426–431

Heruntergeladen von: University of Connecticut. Urheberrechtlich geschützt.

anerkanntes Verfahren, wie eine minimal important difference (MID)2 festzulegen ist. Einen umfassenden Überblick gibt die Artikelserie über das Symposium on Quality of Life in Cancer Patients [2–8]. Einige Forscher halten das Verfahren für unausgereift bis unwissenschaftlich [9]. Andere versuchen, trotz aller Schwierigkeiten MIDs zu ermitteln [10]. Auch wenn wir keine neuen Vorschläge zur Lösung des MID-Problems haben, sprechen wir uns im Interesse der Anschaulichkeit und Verständlichkeit dafür aus, dass Forscherinnen MIDs bestimmen und – neben den üblichen Darstellungen – auch Erfolgsquoten berichten. Die zweite Schwierigkeit: Aufgrund der (bis zu einem gewissen Grade unvermeidbaren) Messfehler kommt es bei der Einordnung in „erfolgreiche Veränderung“ oder „keine erfolgreiche Veränderung“ regelmäßig zu Fehlklassifikationen. Dieser Umstand und seine Konsequenzen sind noch wenig beachtet. Die folgende Darstellung zeigt in Anlehnung an [11], wie sich wahre Erfolgsraten von beobachteten unterscheiden können. Es wird ein neues Rechenverfahren vorgestellt, das messfehlerbereinigte Erfolgsquotenschätzungen vornehmen kann; und anhand von echten Daten werden die Konsequenzen des Verfahrens demonstriert.

428 Originalarbeit

Tab. 1 Das Rechenschema ermittelt den Anteil der Fälle, die die wahre Differenz zwischen erster und zweiter Messung um einen bestimmten kritischen Betrag überschreiten. Gegeben sind

Beispiel

– die beobachteten Mittelwerte und Standardabweichungen zu den beiden Messzeitpunkten – Unabhängigkeit von Erstmessung und Veränderung – eine beliebige MID Berechnungen 1. Die quadrierten Standardabweichungen ergeben die Varianzen s12 und s22 2 2. Formel (1): Die Differenz der Varianzen s22 − s12 ergibt die Varianz der wahren Differenzen sw . Die Wurzel daraus ergibt die Standardabweichung der wahren Differenzen sw

M1 = 50,0 s1 = 18,9 MID = 15

M2 = 60,0 s2 = 20,0

s12 = 357,2 s22 = 400, 00 sw2 = 400,00–357,2 = 42,79 sw = 42,8 = 6,541

3. Das Funktionsargument z lautet dann

(M2 − M1) − MID sw

4. Hieraus ermittle man Φ( z ) =

z= 1 z − u2 / 2 ∫ e du 2 −∞

Φ(z) = 0,2223

Die Werte findet man in Tafeln der Statistiklehrbücher oder z. B. mit der Excel-Funktion NORM.S.VERT (z;WAHR)

beträchtlich – wie groß zeigen beispielhafte Berechnungen weiter unten. Denkbar wären auch anders gelagerte Fälle, in denen z. B. das Vermeiden einer Verschlechterung schon als Erfolg betrachtet ▶ Abb. 1 bei null eingezeichwürde. Dann hätten wir die MID in ● net. In diesem Fall – wie in allen Fällen, in denen eine als substanziell geltende Veränderung unter der durchschnittlichen Veränderung liegt – sähen wir jenseits des Schwellenwerts mehr wahre als beobachtete Erfolge. Der bisherige Gedankengang lässt sich so zusammenfassen: Betrachtet man unabhängig von ihrer Größe alle Differenzen, gleichen sich die Unterschiede zwischen wahren und beobachteten Verbesserungen und dem Ausbleiben von Verbesserungen aus. Scheinbaren Verbesserungen steht ein ebenso großes scheinbares Ausbleiben dieser Verbesserungen gegenüber. Betrachtet man dagegen nur den Teil der Differenzen, der eine bestimmte Schwelle der Veränderung überschritten hat, gibt es keinen Ausgleich zwischen den fälschlich als erfolgreich und fälschlich als nicht erfolgreich klassifizierten Fällen. Liegt die Schwelle höher als die durchschnittliche Veränderung, überschätzt man die Er▶ Abb. 1); liegt sie niedriger, überschätzt man die Misserfolge (● folge. Nur in dem Spezialfall, dass die MID genau der durchschnittlichen Veränderung entspricht, gleichen sich beide Fehleinschätzungen aus (dafür erreicht die Summe aller Fehlurteile allerdings ein Maximum). – Soweit zum prinzipiellen Verhältnis von beobachteten und wahren Erfolgen. Jetzt geht es um die konkrete Schätzung der wahren Erfolgsquoten.

Berechnung der geschätzten wahren Erfolgsquoten



Veränderungswerte sind häufig normalverteilt, selbst wenn die Ausgangswerte es nicht sind. Kennt man Mittelwert und Varianz normalverteilter Werte, kann man den Anteil der Fälle berechnen, die einen bestimmten Wert überschreiten. Der Mittelwert der wahren Veränderungswerte entspricht dem Mittelwert der beobachteten Veränderungswerte. Die Varianz der wahren Veränderungswerte ist, wie eben gezeigt (Formel 1), gleich der Differenz der Varianzen der beobachteten Wertereihen zu den beiden Messzeitpunkten. Hieraus lässt sich für jede gewählte MID ▶ Tab. 1), das man in die das Quantil z berechnen (s. Punkt 3 in ●

(60, 0 − 50, 0) − 15 = −0, 7644 6,541

Ergebnis: 22,23 % der wahren Messwertdifferenzen überschreiten die MID von 15.

Verteilungsfunktion der Standardnormalverteilung einsetzt und so den gewünschten Wert erhält. Er gibt an, wie groß der Anteil der Personen ist, die wirklich die Erfolgshürde genommen ha▶ Tab. 1 zeigt die Rechenschritte und illustriert sie an ben. Die ● einem fiktiven Beispiel. Nach demselben Schema könnte man für dieses fiktive Beispiel auch berechnen, wie viele Personen auf der Grundlage der beobachteten Veränderungswerte bei den gegebenen Mittelwerten und Standardabweichungen als Erfolge klassifiziert würden. ▶ Tab. 1 statt der wahren VariDazu muss man in Schritt 2 der ● anz die Varianz der beobachteten Veränderungswerte einsetzen. Sie hängt wie beschrieben von der Korrelation der beiden Messreihen ab (Formel 2). Für einen Koeffizienten von 0,60 oder 0,80 ergäben sich Erfolgsquoten von 38,7 % bzw. von 34,3 % – also deutlich mehr als die wahren Werte.

Größe und Richtung der Unterschiede



Sie sind zum einen bestimmt durch die Lage der gewählten MID, zum anderen dadurch, ob die Varianzen der wahren Veränderungswerte größer oder kleiner sind als die Varianzen der beobachteten Veränderungswerte. ▶ Lage der MID: Entspricht die MID der durchschnittlichen Veränderung, gibt es keine Unterschiede zwischen beobachteten und wahren Erfolgen. Wählt man immer größere MIDs, steigen die Unterschiede zunächst bis zu einem Maximum6 an und werden dann wieder kleiner. Entsprechendes gilt für MIDs, die kleiner als die durchschnittliche Veränderung gewählt werden. ▶ Ist die Varianz der wahren Veränderungswerte kleiner als die Varianz der beobachteten Veränderungswerte, überschätzen 6

Die Lage der Maxima lässt sich abschätzen, indem man mit den beobachteten und wahren Varianzen und Mittelwerten normalverteilte Dichtefunktionen konstruiert. Die Grafen schneiden sich in den Maxima. Berechnung der Schnittpunkte:

x1;2 = m ±

Höder J et al. Über- und Unterschätzung von … Gesundheitswesen 2015; 77: 426–431

⎛ 2 ⎞ 2 2   ⎝ 1 ⎟⎠ 1 2

2ln ⎜



2 2

−

2 1

Heruntergeladen von: University of Connecticut. Urheberrechtlich geschützt.

z=

Originalarbeit 429 sw2 = s22 − s12 − 2 ⋅ (COV (x1 , x2 − x1) + s12 ⋅ (1 − rtt ))

Tab. 2 Mittelwerte und Standardabweichungen von 277 frisch bandscheibenoperierten Rehabilitanden auf der 11-stufigen numerischen Ratingskala „Schmerz“ zu 2 Messzeitpunkten. COV: Kovarianzen von t1 und t2 mit der Veränderung (t2 – t1), sw: Standardabweichung der wahren Veränderungen gemäß Formel (3).

M s COV sw

3,6 2,3 − 2,89

t2

t2 – t1

3,1 2,0 1,76

− 0,5 2,2

Die Wurzel aus diesem Ausdruck wird dann in den Nenner zur ▶ Tab. 1). Berechnung von z gesetzt (siehe Schritt 3 in ● Sollte sw2 negativ werden, ändert sich die Formel zu sw2 = s12 − s22 − 2 ⋅ (COV (x1 , x1 − x2 ) + s12 ⋅ (1 − rtt )).

Echte Daten: Vergleich mit den beobachteten Erfolgen

1,6



Tab. 3 Mittelwerte und Standardabweichungen der Ausgangswerte und ihrer Differenzen im FFbH-R zwischen 2 Messzeitpunkten t1 und t2. IG: Interventionsgruppe, KG: Kontrollgruppe, sw: wahre Standardabweichung gemäß Formel (3). Zur Schätzung der Reliabilität diente die Korrelation zwischen t1 und t2 in der KG, r tt = 0,64. t1 M s sw

t2

t2 – t1

IG

KG

IG

KG

IG n = 102

KG n = 70

55,8 23,8

65,0 20,0

62,9 24,6

70,4 22,1

7,1 21,3 6,3

5,4 17,9 5,8

die beobachteten Veränderungswerte die Erfolgsquote, wenn die MID über der durchschnittlichen Veränderung liegt und vice versa.

Abhängigkeit der Veränderungswerte von der Erstmessung



Eine unserer Modellannahmen lautete: Das Ausmaß der Veränderung ist unabhängig von der Merkmalsausprägung vor der Intervention. Diese Annahme muss nicht zutreffen. Eine Intervention könnte z. B. Personen mit stärker ausgeprägten Symptomen mehr helfen als leichter Betroffenen. Bei Designs ohne Vergleichsgruppe könnten Verzerrungen durch Deckeneffekte auftreten: Wer schon vor der Intervention nur geringe Beschwerden hat, kann sich nur wenig verbessern. Die Verletzung der Modellannahme würde sich an einer substanziellen Korrelation zwischen Erstmessung und Veränderungswert zeigen. (Geringe negative Korrelationen müssen kein Anlass sein, die Modellannahme aufzugeben. Sie kommen zustande, weil Erstmessung und Veränderungswerte identische Messfehler enthalten). Durch diese Abhängigkeit erhöht sich gegenüber Formel (1) die Varianz der wahren Veränderungswerte, und zwar, wie sich zeigen lässt, um das Doppelte des Betrages der Kovarianz von wahrem Ausgangswert (w1) und wahrer Veränderung (w2–w1)7 : sw2 = s22 − s12 − 2 ⋅ COV (w1 , w2 − w1) Die Kovarianz der wahren Werte der Erstmessung und der Veränderungswerte lässt sich erwartungstreu schätzen durch: COV (w1 , w2 − w1) = COV (x1 , x2 − x1) + se2 , wobei se2 = s12 ⴢ (1 − rtt ). Dabei ist se2 die Fehlervarianz und rtt die Reliabilität des Messinstruments. Die Varianz der wahren Veränderung ergibt sich also zu

7

Die genaue Herleitung der Formel ist auf der Website www.sozmed.uniluebeck.de/erfolgsraten.html zu finden.

Ein Beispiel demonstriert, wie sich eine wahre Rate zu einer beobachteten Rate verhalten kann. In einer Studie von Morfeld et al. [14] ergaben sich die Daten ▶ Tab. 2. Die Schmerzen der bandscheibenoperierten Rehaaus ● bilitanden nahmen während der Reha auf der 11-stufigen numerischen Ratingskala durchschnittlich um eine halbe Stufe ab. Die Erstmessung war zu r = − 0,58 mit den Veränderungswerten deutlich korreliert, sodass wir die Formel (3) aus dem vorigen Abschnitt heranzogen. Wir nahmen eine Reliabilität der Ratingskala von 0,80 [15] an. Daraus ergab sich eine Streuung der wahren Veränderung von 1,6. Als MID gilt bei vielen Experten eine Verbesserung um mindestens 2 Stufen [16–18]. Die für unsere Zwecke vorgenommene Auszählung der beobachteten Veränderungswerte ergab: 27,1 % überschritten diese Erfolgsschwelle. Setzt man die betreffenden Angaben jedoch in das o. a. Rechenschema ein, erhält man die geringere Rate der geschätzten wahren Erfolge von 16,6 %. Das Beispiel zeigt: Die Unterschiede zwischen beobachteten und wahren Erfolgen können bedeutsam sein.

Kontrollgruppen



Hüppe et al. [19] untersuchten in einer randomisierten kontrollierten Studie, wie es sich auswirkt, wenn man Personen mit gefährdeter Erwerbsfähigkeit zur Teilnahme an einer medizinischen Rehabilitation rät. Im Funktionsfragebogen Hannover (FFbH-R; [20]) ergaben sich zu den Messzeitpunkten t1 (Beratung) und t2 (6 Monate danach) sowie für eine Interventions▶ Tab. 3. und eine Kontrollgruppe die Werte in ● Man erkennt, dass die wahren Standardabweichungen der Veränderungswerte deutlich geringer ausfallen als die gemessenen. Das führt zu entsprechenden Unterschieden zwischen den beob▶ Abb. 2 achteten und den geschätzten wahren Erfolgsquoten. ● visualisiert die Raten für verschiedene denkbare MIDs8. Sowohl in der Interventionsgruppe als auch in der Kontrollgruppe ergaben sich deutlich mehr beobachtete als wahre Erfolge. In beiden Gruppen verschlechtert sich das Verhältnis von wahren zu beobachteten Veränderungen mit zunehmendem Abstand der MID von der durchschnittlichen Veränderung. Das Beispiel zeigt: Auch bei kontrollierten Designs ist es sinnvoll, nicht nur die beobachteten, sondern die geschätzten wahren Erfolge zu betrachten. Ein Vergleich der beobachteten Erfolge in Interventions- und Kontrollgruppe bei einer MID von 12,5 ergibt 8

Für den FFbH liegen bisher keine expliziten Untersuchungen zur MID vor. Aus [19] kann man Anhaltspunkte entnehmen, die bei Patienten mit rheumatischen Gelenkerkrankungen für eine MID von 12,5 (Rohwert 3) sprechen. MIDs vergleichbarer internationaler Fragebögen legen Werte zwischen 8,3 und 25 (Rohwerte 2–6) nahe (vgl. die Angaben in [16] zum Roland Morris Disability Questionnaire, Oswestry Disability Index sowie zum Quebec Back Pain Disability Questionnaire).

Höder J et al. Über- und Unterschätzung von … Gesundheitswesen 2015; 77: 426–431

Heruntergeladen von: University of Connecticut. Urheberrechtlich geschützt.

t1

(3)

430 Originalarbeit

40

20

0

8,3

12,5 Wahre Raten in der Interventionsgruppe

16,7 MID

20,8

25,0

Beobachtete Raten

Wahre Raten in der Kontrollgruppe

Abb. 2 Beobachtete und wahre Erfolgsquoten für verschiedene MIDs im Funktionsfragebogen Hannover (FFbH).

unabhängig von den Ausgangswerten sind. Andernfalls benötigt man zusätzlich die Kovarianz zwischen Veränderungs- und Ausgangswerten sowie die Reliabilität des Messinstrumentes, gemessen über den Pearson’schen Korrelationskoeffizienten. Am besten geeignet ist die Retest-Reliabilität. Idealerweise lag bei ihrer Bestimmung zwischen Test und Retest ein ähnlicher Zeitraum wie zwischen Erst- und Zweitmessung der aktuellen Studie. Hat man eine unbehandelte Kontrollgruppe, kann man die Korrelation zwischen den Messzeitpunkten benutzen. Bei den Erfolgsquoten handelt es sich um Gruppenstatistiken. Sie sagen nichts darüber aus, welche konkreten Personen sich nach einer Intervention verbessert haben. Ihre Nutzanwendung im klinischen Alltag liegt vor einer geplanten Intervention. Indem sie auf verständliche Weise Erfolgsaussichten darstellen, helfen sie Ärztinnen und Patienten, sich für oder gegen die Durchführung zu entscheiden.

Danksagung einen Unterschied von 12,2 Prozentpunkten (42,2 zu 30 %), der wahre Unterschied liegt jedoch bei nur 6,9 Prozentpunkten (19,4 zu 12,5 %).

Konfidenzintervalle



Die geschätzte wahre Erfolgsquote ist um den Messfehler bereinigt. Sie ist wahr in Bezug auf die Stichprobe. Für Rückschlüsse auf die Population sollte man für die wahren Erfolgsquoten Konfidenzintervalle bestimmen. Da die Verteilungsfunktion der Standardnormalverteilung nicht über eine elementare Stammfunktion darstellbar ist, lässt sich die Varianz des geschätzten Anteils über MID allerdings nicht über eine geschlossene Formel bestimmen. Das Institut für Sozialmedizin und Epidemiologie stellt auf seiner Internetseite ein Tool zur Verfügung, das eine schnelle und einfache Berechnung sowohl der geschätzten wahren Erfolgsquoten wie auch der zugehörigen Konfidenzintervalle ermöglicht (www.sozmed.uni-luebeck.de/erfolgsraten.html). Für die o. a. Daten aus [14] bspw. ergäbe sich für das Ergebnis 16,6 ein Konfidenzintervall (95 %) von 11,9–21,3.

Diskussion



Trotz aller Schwierigkeiten, die mit der Bestimmung von MIDs verbunden sind, möchten wir uns dafür aussprechen, bei Interventionsstudien neben Mittelwertunterschieden, Konfidenzintervallen und Effektstärken auch Erfolgsquoten zu berichten. Sie liefern eine auch für wissenschaftliche Laien relativ leicht verständliche Entscheidungsgrundlage und können überdies die üblichen Darstellungen mit zusätzlichen Informationen ergänzen. MIDs für Schmerzen und Funktionseinschränkungen – 2 Beeinträchtigungen, die z. B. in der orthopädischen Rehabilitation eine wichtige Rolle spielen – liegen vermutlich in der Regel über den durchschnittlich erreichbaren Veränderungen. Beschränkt man sich auf die beobachteten Veränderungswerte, besteht daher die Gefahr, die Erfolgsquoten zu überschätzen. Das gilt in besonders starkem Maße für unkontrollierte Studien. Abhilfe schaffen hier die von uns vorgeschlagenen messfehlerbereinigten wahren Erfolgsquoten. Sie lassen sich recht einfach aus Mittelwerten und Standardabweichungen der Erst- und Zweitmessung berechnen, falls die Veränderungswerte weitgehend



Die Autoren danken Matthias Morfeld, Stendal, für die Überlassung von Daten.

Interessenkonflikt: Die Autoren geben an, dass kein Interessenkonflikt besteht. Literatur 1 Ferreira M, Herbert R, Ferreira P et al. A critical review of methods used to determine the smallest worthwhile effect of interventions for low back pain. J Clin Epidemiol 2012; 65: 253–261 2 Sloan J, Cella D, Frost M et al. Assessing clinical significance in measuring oncology patient quality of life: Introduction to the symposium, content overview, and definition of terms. Mayo Clin Proc 2002; 77: 367–370 3 Guyatt G, Osoba D, Wu A et al. Methods to explain the clinical significance of health status measures. Mayo Clin Proc 2002; 77: 371–383 4 Cella D, Bullinger M, Scott C et al. Group vs. individual approaches to understanding the clinical significance of differences or changes in quality of life. Mayo Clin Proc 2002; 77: 384–392 5 Sloan J, Aaronson N, Cappelleri C et al. Assessing the clinical significance of single items relative to summated scores. Mayo Clin Proc 2002; 77: 479–487 6 Frost M, Bonomi A, Estwing Ferrans C et al. Patient, clinician, and population perspectives on determining the clinical significance of qualityof-life scores. Mayo Clin Proc 2002; 77: 488–494 7 Sprangers M, Moinpour C, Moynihan T et al. Assessing meaningful change in quality of life over time: A users’ guide for clinicians. Mayo Clin Proc 2002; 77: 561–571 8 Symonds T, Berzon R, Marquis P et al. The clinical significance of quality-of-life results: Practical considerations for specific audiences. Mayo Clin Proc 2002; 77: 572–583 9 Gatchel R, Lurie J, Mayer T. Minimal clinically important difference. Spine 2010; 35: 1739–1743 10 Tubach F, Ravaud P, Martin-Mola E et al. Minimum clinically important improvement and patient acceptable symptom state in pain and function in rheumatoid arthritis, ankylosing spondylitis, chronic back pain, hand osteoarthritis, and hip and knee osteoarthritis: Results from a prospective multinational study. Arthritis Care Res 2012; 64: 1699–1707 11 Walter SD, Irwig L. Estimating the number needed to treat (NNT) index when the data are subject to error. Stat Med 2001; 20: 893–906 12 Hartung J, Elpelt B, Klösener KH. Statistik: Lehr- und Handbuch der angewandten Statistik. München: Oldenbourg; 1982 13 Rogosa D, Brandt D, Zimowski M. A growth curve approach to the measurement of change. Psychological Bulletin 1982; 92: 726–748 14 Morfeld M, Möller J, Fox M et al. Kognitiv-verhaltenstherapeutische Intervention während der stationären Anschlussrehabilitation – Programmatik und Wirksamkeit. In: Deck R, Raspe H, Koch U, Hrsg. Rehawissenschaftliche Forschung in Norddeutschland. Norddeutscher Verbund für Rehabilitationsforschung. Ergebnis sechsjähriger Forschungsarbeit. Lage: Jacobs Verlag; 2007; 91–118

Höder J et al. Über- und Unterschätzung von … Gesundheitswesen 2015; 77: 426–431

Heruntergeladen von: University of Connecticut. Urheberrechtlich geschützt.

Erfolgsrate

60

Originalarbeit 431

19 Hüppe A, Glaser-Möller N, Raspe H. Trägerübergreifendes Projekt zur Früherkennung von Rehabilitationsbedarf bei Versicherten mit muskuloskelettalen Beschwerden durch Auswertung von Arbeitsunfähigkeitsdaten: Ergebnisse einer randomisierten, kontrollierten Evaluationsstudie. Gesundheitswesen 2006; 68: 347–356 20 Kohlmann T, Raspe H. Der Funktionsfragebogen Hannover zur alltagsnahem Diagnostik der Funktionsbeeinträchtigung durch Rückenschmerzen (FFbH-R). Rehabilitation 1996; 35: I–VIII 21 Raspe H, Hagedorn U, Kohlmann T et al. Der Funktionsfragebogen Hannover (FFbH): Ein Instrument zur Funktionsdiagnostik bei polyartikulären Gelenkerkrankungen. In: Siegrist J, Hrsg. Wohnortnahe Betreuung Rheumakranker. Stuttgart: Schattauer; 1990; 164–182

Heruntergeladen von: University of Connecticut. Urheberrechtlich geschützt.

15 Jensen M. The validity and reliability of pain measures in adults with cancer. J Pain 2003; 4: 2–21 16 Ostelo R, Deyo R, Stratford P et al. Interpreting change scores for pain and functional status in low back pain. Towards international consensus regarding minimal important change. Spine 2008; 33: 90–94 17 Dworkin R, Turk D, Wyrwich K et al. Interpreting the clinical importance of treatment outcomes in chronic pain clinical trials: IMMPACT recommendations. J Pain 2008; 9: 105–121 18 Mesrian A, Neubauer E, Schiltenwolf M. Gutes Therapieergebnis nach Behandlung chronischer Rückenschmerzen. Wie viel Schmerzreduktion ist klinisch relevant? Schmerz 2007; 21: 212–217

Höder J et al. Über- und Unterschätzung von … Gesundheitswesen 2015; 77: 426–431

[Over- and Underestimation of Success Rates].

The patient reported outcome in interventional studies is often measured with questionnaires at baseline and after the intervention. A person whose di...
304KB Sizes 4 Downloads 3 Views