June 19, 2024Open Access

Wie viel ist genug? Stichprobengröße in gestaffelten Differenz-in-Differenzen-Designs

Key Points

Key points are not available for this paper at this time.

Abstract

In Differenz-in-Differenzen-Designs mit gestaffeltem Behandlungszeitpunkt und dynamischen Behandlungseffekten kann der zweifache feste Effektschätzer keinen interpretierbaren kausalen Schätzwert ermitteln. Eine Vielzahl von Schätzern wurde vorgeschlagen, um dieses Problem zu beheben. Die Flexibilität dieser Schätzer erhöht jedoch ihre Varianz. Dies kann zu statistischen Tests mit geringer statistischer Power führen. In der Folge ist es unwahrscheinlich, dass kleine Effekte entdeckt werden. Darüber hinaus, bei geringer Power, wenn ein statistisch signifikanter Schätzwert ermittelt wird, ist dieser oft falsch signiert und/oder erheblich übertrieben. Anhand von Simulationen mit realen Daten von US-Bundesstaaten zeigen wir, dass Effektgrößen von 10 bis 15 % notwendig sind, damit die kürzlich entwickelten Schätzer für gestaffelte Differenz-in-Differenzen statistische Tests erzeugen, die eine Power von 80 % erreichen. Außerdem, vorausgesetzt statistische Signifikanz, wenn die Intervention schwache Effekte erzeugt, ermitteln Schätzer in etwa 10 % der Simulationen das falsche Vorzeichen und überschätzen den wahren Effekt im Durchschnitt um mehrere hundert Prozent. Wir verwenden Daten von börsennotierten Unternehmen, um zu untersuchen, welche Stichprobengröße für eine gestaffelte Differenz-in-Differenzen-Analyse erforderlich ist, um informativ zu sein. Wir stellen fest, dass je nach abhängiger Variablen und Effektgröße selbst die effizientesten Schätzer in der Regel mehr als 250 Einheiten benötigen, um eine angemessene Power zu erreichen. Wir schließen mit einer Diskussion darüber, wie diese Art von ‚Design-Analyse‘ von Forschern genutzt werden sollte, bevor sie gestaffelte Differenz-in-Differenzen-Modelle schätzen. Außerdem diskutieren wir, wie die Power unter bestimmten Bedingungen verbessert werden kann, wenn eine Studie neu gestaltet wird, z. B. durch die Untersuchung von Ergebnissen auf Kreisebene mit Interventionen auf Ebene der Bundesstaaten.

Wie viel ist genug? Stichprobengröße in gestaffelten Differenz-in-Differenzen-Designs

Key Points

Abstract

Cite This Study

Also Consider

Also Consider