Wiederholung: Frequentistische Inferenzstatistik

Methoden der empirischen Kommunikations- und Medienforschung

Marko Bachl

Freie Universität Berlin

Fragen zur Übung?

Heute: Wiederholungssitzung

  • Wir besprechen in dieser Sitzung ca. ein halbes Semester einer Bachelor-Vorlesung: Sehr viele Inhalte, sehr viele Folien. Wir werden manche Folien überhaupt nicht besprechen, manche nur sehr kurz. Diese Folien dienen zum Nachschlagen wichtiger Grundlagen.

  • Nebenbei versuchen wir, den Einstieg in RStudio und R zu vermitteln.

  • Sitzungen mit neuen Inhalten werden weniger dicht.

Agenda

  1. Was ist (frequentistische) Inferenzstatistik?
  2. Univariate Schätzung von Populationsparametern
  3. Was sind Hypothesentests (Null-Hypothesen-Signifikanz-Tests, NHST)?
  4. Wie funktioniert NHST und was bedeutet “statistisch signifikant”?
  5. Bekannte (bivariate) NHST-Verfahren: \(T\)-Test, \(\chi^2\)-Test, \(F\)-Test
  6. Übungsaufgaben

Daten der heutigen Sitzung

(Van Erkel, 2020; Van Erkel & Van Aelst, 2021)

Was ist (frequentistische) Inferenzstatistik?

Was ist (frequentistische) Inferenzstatistik?

Inferenzstatistik: Statistik, die auf der Basis von Stichprobenergebnissen induktiv allgemeingültige Aussagen formuliert. Zur Inferenzstatistik zählen die Schätzung von Populationsparametern (Schließen) und die Überprüfung von Hypothesen (Testen) (Bortz & Schuster, 2010, S. 581).

  • Schätzung von Populationsparametern (Schließen):
    • Wie viele der fünf Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
    • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
    • Wie groß ist der Wissensunterschied zwischen Männern und Frauen in Flandern?


  • Überprüfung von Hypothesen (Testen):
    • Männer wissen mehr über Politik als Frauen.
    • Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.

Frequentistische Inferenzstatistik

  • Aussagen über Ergebnisse in (unendlich) vielen Wiederholungen der Studie
  • Langfristige Irrtumswahrscheinlichkeiten
  • Wenn wir viele Inferenzschlüsse machen, wollen wir uns insgesamt nur in einem vorher als akzeptabel festgelegtem Anteil aller Aussagen irren.


  • Wenn wir frequentistische Verfahren korrekt durchführen, dann wissen wir, dass wir uns nur selten irren…
  • … aber wir wissen nicht, wann wir uns irren.


  • In den Sozialwissenschaften am weitesten verbreitet
  • Alternative: Bayesianische Inferenzstatistik (zunehmend populärer; allgemein: McElreath (2020); für die Kommunikationswissenschaft: Chan & Rauchfleisch (2023))

Zentrales Konzept: Der Standardfehler

Standardabweichung
(SD, standard deviation)

Streuung der Stichprobenwerte um den Stichprobenmittelwert. Beantwortet die Frage: Wie typisch ist der Mittelwert für die Stichprobe?

Standardfehler
(SE, standard error)

Streuung der Schätzungen einer Kennzahl aus wiederholten Stichproben um Wert in der Grundgesamtheit. Beantwortet die Frage: Wie typisch ist diese Kennzahl für die Grundgesamtheit?


Der Standardfehler in der Inferenzstatistik

Wir schätzen einen SE auf Basis von Stichprobeninformationen. Wir nutzen diesen SE zusammen mit Annahmen aus der frequentistischen Statistik, um Aussagen über die Unsicherheit bei Inferenzen zu machen.

Der Betrag des SE interessiert uns nicht. Uns interessiert, was er mit anderen Stichprobenwerten verrechnet für die Inferenzen bedeutet. Wenn hier (oder in den späteren Sitzungen) ein SE vorkommt, denken Sie einfach “Maß für die Unsicherheit unserer Studie”.

Fragen?

Univariate Intervallschätzung von Populationsparametern

Was ist (frequentistische) Inferenzstatistik?

Inferenzstatistik: Statistik, die auf der Basis von Stichprobenergebnissen induktiv allgemeingültige Aussagen formuliert. Zur Inferenzstatistik zählen die Schätzung von Populationsparametern (Schließen) und die Überprüfung von Hypothesen (Testen) (Bortz & Schuster, 2010, S. 581).

  • Schätzung von Populationsparametern (Schließen):
    • Wie viele der fünf Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
    • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
    • Wie groß ist der Wissensunterschied zwischen Männern und Frauen in Flandern?


  • Überprüfung von Hypothesen (Testen):
    • Männer wissen mehr über Politik als Frauen.
    • Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.

Univariate Intervallschätzung

  • Frage: Wo liegt der Wert eines Parameters in der Grundgesamtheit?
  • Allgemeines Vorgehen:
    • Berechnen des Punktschätzers (Mittelwert, Anteil in der Stichprobe)
    • Berechnen des Standardfehlers (Präzision des Punktschätzers; meist SE für eng. standard error)
    • Berechnen des Konfidenzintervalls aus Standardfehler, gewünschter Irrtumswahrscheinlichkeit und angenommener Verteilung des Schätzers

Standardfehler eines Mittelwerts

\[ \text{SE}_{\bar x} = \frac{ s } { \sqrt{n}} \]

Standardabweichung durch Wurzel der Fallzahl

Standardfehler eines Anteils

\[ \text{SE}_{p} = \sqrt{ \frac {p * (1 - p)} {n} } \]

Wurzel aus (Anteil mal (1 - Anteil) durch Fallzahl)

Frequentistische Konfidenzintervalle

Univariate Intervallschätzung

  • Wie viele der fünf Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
d |>
  summarize(
    M = mean(Political_knowledge),
    SD = sd(Political_knowledge),
    n = n(),
    SE = SD / sqrt(n),
    t_critical = qt(0.975, df = n - 1), # t-value for 95% CI
    lower_ci = M - t_critical * SE,
    upper_ci = M + t_critical * SE
  )
M SD n SE t_critical lower_ci upper_ci
3.04 1.36 993 0.04 1.96 2.96 3.13

Die Menschen in Flandern beantworten durchschnittlich 3.04 (95%-Konfidenzintervall [2.96, 3.13]) Fragen korrekt.

Univariate Intervallschätzung

  • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
Descriptive Statistics
Variable Summary
Facebook [Never], % 49.5 [46.4, 52.7]
Facebook [Less than once a week], % 8.1 [6.5, 9.9]
Facebook [1 to 2 times a week], % 7.2 [5.7, 8.9]
Facebook [3 to 4 times a week], % 6.8 [5.4, 8.6]
Facebook [(Almost) daily], % 16.1 [14.0, 18.5]
Facebook [More than once a day], % 12.3 [10.4, 14.5]

49.5% (95%-Konfidenzintervall [46.4%, 52.7%]) der Flamen nutzen nie Facebook zur politischen Information.

Fragen?

Was sind Hypothesentests (Null-Hypothesen-Signifikanz-Tests, NHST)?

Was ist (frequentistische) Inferenzstatistik?

Inferenzstatistik: Statistik, die auf der Basis von Stichprobenergebnissen induktiv allgemeingültige Aussagen formuliert. Zur Inferenzstatistik zählen die Schätzung von Populationsparametern (Schließen) und die Überprüfung von Hypothesen (Testen) (Bortz & Schuster, 2010, S. 581).

  • Schätzung von Populationsparametern (Schließen):
    • Wie viele der fünf Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
    • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
    • Wie groß ist der Wissensunterschied zwischen Männern und Frauen in Flandern?


  • Überprüfung von Hypothesen (Testen):
    • Männer wissen mehr über Politik als Frauen.
    • Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.

Idealtypischer Ablauf einer Studie mit NHST

(Field, 2024, S. 85)

Alternativhypothese und Nullhypothese

  • Die Alternativhypothese (\(H_1\)) bezeichnet die Hypothese, die wir auf Basis unserer theoretischen Überlegungen aufstellen.

  • Die Nullhypothese (\(H_0\)) besagt, dass der Sachverhalt, der in der Alternativhypothese formuliert wurde, nicht zutrifft.

  • In der praktischen wissenschaftlichen Arbeit formulieren und begründen wir in der Regel nur die Alternativhypothese. Die Nullhypothese ist implizit gegeben als die Menge aller Befunde, die unserer Alternativhypothese widersprechen. Sie wird aber nicht explizit formuliert.

Alternativhypothese und Nullhypothese

xkcd 892

Inhaltliche und statistische Hypothesen

  • Die inhaltliche Hypothese ist die Aussage, die wir aus der Theorie ableiten können, in sprachlicher Form ausgedrückt. Um sie mit Hilfe der quantitativen Datenanalyse überprüfen zu können, müssen wir sie möglichst präzise in einer (oder mehreren) statistische(n) Hypothese(n) formulieren.

Beispiel

  • Inhaltliche \(H_1\): Männer und Frauen unterscheiden sich in ihrem politischen Wissen.
  • Operationalisierung:
    • aV: Antworten auf 5 Wissensfragen.
    • uV: Gender laut Selbstauskunft
  • Statistische \(H_1\): \(M_{\text{Political_knowledge}_{\text{Männer}}} \neq M_{\text{Political_knowledge}_{\text{Frauen}}}\)
  • Statistische \(H_0\): \(M_{\text{Political_knowledge}_{\text{Männer}}} = M_{\text{Political_knowledge}_{\text{Frauen}}}\)
  • Alternative Formulierung für statistische \(H_0\): \(M_{\text{Political_knowledge}_{\text{Männer}}} - M_{\text{Political_knowledge}_{\text{Frauen}}} = 0\)
  • Wir schätzen \(M_{\text{Political_knowledge}_{\text{Männer}}} - M_{\text{Political_knowledge}_{\text{Frauen}}}\) und machen eine inferenzstatistische Aussage über diese Quantität in der Grundgesamtheit.

Ungerichtete und gerichtete Hypothesen

  • Gerichtete Hypothesen machen eine Aussage über die Richtung eines Unterschieds oder Zusammenhangs.
  • Die andere Richtung fällt bei der Formulierung der statistischen Hypothesen zur \(H_0\).
  • Ungerichtet: Männer und Frauen unterscheiden sich in ihrem politischen Wissen.
  • \(H_1\): \(M_{\text{Political_knowledge}_{\text{Männer}}} \neq M_{\text{Political_knowledge}_{\text{Frauen}}}\)
  • \(H_0\): \(M_{\text{Political_knowledge}_{\text{Männer}}} = M_{\text{Political_knowledge}_{\text{Frauen}}}\)
  • Gerichtet: Männer wissen mehr über Politik als Frauen.
  • \(H_1\): \(M_{\text{Political_knowledge}_{\text{Männer}}} > M_{\text{Political_knowledge}_{\text{Frauen}}}\)
  • \(H_0\): \(M_{\text{Political_knowledge}_{\text{Männer}}} \leq M_{\text{Political_knowledge}_{\text{Frauen}}}\)

Paradoxe Praxis in den Sozialwissenschaften

  • Wir formulieren meist gerichtete Hypothesen, da wir Theorien haben. Wir testen aber meist ungerichtete Hypothesen, da wir auch ein entgegengesetztes Ergebnis nicht gänzlich ausschließen und interessant finden.
  • Vorschau: Wenn wir gerichtete Hypothesen testen, dürfen wir den \(p\)-Wert durch 2 teilen, wenn die empirische Richtung der Hypothese entspricht. Es wird “leichter”, statistisch signifikante Ergebnisse zu erhalten. Wir dürfen aber Ergebnisse in entgegengesetzter Richtung ausschließlich als Falsifikation interpretieren.
  • Hier: Ungerichtete Hypothesentests

Fragen?

Wie funktioniert NHST und was bedeutet “statistisch signifikant”?

Idealtypischer Ablauf einer Studie mit NHST

(Field, 2024, S. 85)

Mögliche Fehler beim Hypothesen-Test

(Bortz & Schuster, 2010, S. 100)

  • Wir beachten meistens nur den Fehler 1. Art (\(\alpha\)-Fehler):
    • \(\alpha\)-Fehlerrate = Rate, mit der wir bei wiederholten Tests \(H_0\) fälschlicherweise ablehnen
    • “Signifikanz-Test”
  • Wir sollten aber auch Fehler 2. Art (\(\beta\)-Fehler) berücksichtigen:
    • \(\beta\)-Fehlerrate = Rate, mit der wir bei wiederholten Tests \(H_0\) fälschlicherweise nicht ablehnen
    • Power-Berechnung: Power = \(P(H_0 \text{Ablehnen} | H_1 \text{wahr}) = 1 – \beta\)
    • Erfordert spezifische Hypothese (angenommene Effektstärke)
  • Frequentistische Fehlerraten: Anteil der Fehler, die wir langfristig bei vielen Tests machen

Mögliche Fehler beim Hypothesen-Test (Bsp.)

(Bortz & Schuster, 2010, S. 100)

  • \(H_1\): Männer und Frauen unterscheiden sich in ihrem politischen Wissen.
  • Fehler 1. Art (\(\alpha\)-Fehler): In der Grundgesamtheit unterscheiden sich Männer und Frauen nicht in ihrem politischen Wissen (\(H_0\) ist wahr). Wir schließen aber, dass sie sich unterscheiden (\(H_1\) wird gestützt).
  • Fehler 2. Art (\(\beta\)-Fehler): In der Grundgesamtheit unterscheiden sich Männer und Frauen in ihrem politischen Wissen (\(H_1\) ist wahr). Wir finden aber nicht ausreichend Evidenz für diesen Unterschied (\(H_0\) wird nicht verworfen).

Idealtypischer Ablauf einer Studie mit NHST

(Field, 2024, S. 85)

Was bedeutet der \(p\)-Wert?

  • Der p-Wert ist eine mathematische Kenngröße, um die Sicherheit eines Ergebnisses in einer einzelnen Studie zu beziffern. Der p-Wert ist die Wahrscheinlichkeit, einen gleichen oder stärkeren Unterschied bzw. Zusammenhang zu beobachten, wenn der wahre Wert der \(H_0\) entspricht. Je kleiner der p-Wert, desto weniger lässt sich dieses Ergebnis mit \(H_0\) vereinbaren.
  • \(p = P(\text{Ergebnis}|H_0)\): Die Wahrscheinlichkeit, unser Ergebnis zu beobachten, wenn in Wahrheit \(H_0\) stimmt.

Was bedeutet der \(p\)-Wert? (Beispiel)

M_Männer M_Frauen Differenz t (Diff. / SE) p
3.44 2.61 0.84 10.15 < .001
  • Der \(p\)-Wert ist die Wahrscheinlichkeit, einen gleichen oder größeren Unterschied zwischen Männern und Frauen bei der Beantwortung dieser Wissensfragen zu beobachten (konkret einen größeren \(t\)-Wert, also eine größere Differenz gemessen an ihrem Standardfehler), wenn Männer und Frauen in der Grundgesamtheit im Mittel gleich viele Fragen richtig beantworten.
  • \(p <.001\) gibt an, dass es sehr unwahrscheinlich wäre, diesen oder einen noch größeren Unterschied zu beobachten, wenn die Mittelwertdifferenz un der Grundgesamtheit 0 wäre.

Was bedeutet der \(p\)-Wert nicht?

  • \((1 – p) \neq P(\text{Ergebnis}|H_1)\): Die Wahrscheinlichkeit, unser Ergebnis zu beobachten, wenn die Alternativhypothese gilt.
    • Mit sehr hoher Wahrscheinlichkeit würden wir in wiederholten Studien diesen oder einen größeren Wissensunterschied zwischen Männern und Frauen finden, wenn \(H_1\) wahr ist.
  • \(p \neq P(H_0|\text{Ergebnis})\): Die Wahrscheinlichkeit für die Richtigkeit der Nullhypothese gegeben des beobachteten Ergebnisses
    • In der Grundgesamtheit gibt es mit sehr geringer Wahrscheinlichkeit keinen Wissensunterschied zwischen Männern und Frauen.
  • \((1 – p) \neq P(H_1|\text{Ergebnis})\): Die Wahrscheinlichkeit für die Richtigkeit der Alternativhypothese gegeben des beobachteten Ergebnisses
    • In der Grundgesamtheit gibt es mit sehr großer Wahrscheinlichkeit einen Wissensunterschied zwischen Männern und Frauen.

Idealtypischer Ablauf einer Studie mit NHST

(Field, 2024, S. 85)

Was bedeutet “statistisch signifikant”?

  • Der Signifikanz-Test ist der Vergleich des p-Werts mit dem zuvor festgelegten Signifikanzniveau.

  • Wir nennen ein Ergebnis statistisch signifikant, wenn \(p < \alpha\), wobei \(\alpha\) das zuvor festgelegte Signifikanzniveau ist.

  • Wenn wir z.B. vor der Studie 5% als eine angemessene langfristige Irrtumswahrscheinlichkeit festgesetzt haben und wir \(p = .023\) finden, sind wir zuversichtlich, dass unsere Stichprobe nicht zu den 5% Abweichungen in der \(H_0\)-Welt gehört. Wir gehen stattdessen davon aus, dass \(H_0\) nicht stimmt.

  • Wir verwerfen \(H_0\) zugunsten von \(H_1\).

  • Eine korrekte Verwendung des idealtypischen NHST-Rahmens würde dafür sorgen, dass wir (persönlich und als Wissenschaftssystem) uns langfristig nur selten irren (konkret: eine nominale \(\alpha\)-Fehlerrate einhalten).

Was bedeutet “statistisch signifikant”? (Beispiel)

M_Männer M_Frauen Differenz t (Diff. / SE) p
3.44 2.61 0.84 10.15 < .001
  • Van Erkel & Van Aelst (2021) geben kein explizites Signifikanzniveau \(\alpha\) an. Wir gehen daher vom Standard-Niveau \(\alpha = 0.05\) aus.
  • \(p < .001\), also \(p < \alpha\): Das Ergebnis ist statistisch signifikant.
  • Das Ergebnis stützt die Hypothese, dass sich Männer und Frauen in ihrem politischen Wissen unterscheiden.

Zusammenfassung

  • Allgemeiner Ablauf eines NHST:

    • Wir formulieren \(H_1\) und damit implizit \(H_0\). Wir legen \(\alpha\) fest.
    • Wir berechnen, wie gut unser Ergebnis mit \(H_0\) zu vereinbaren ist (p-Wert).
    • Wenn \(p < \alpha\): Wir verwerfen \(H_0\) zugunsten von \(H_1\). \(H_1\) wird gestützt.
    • Wenn \(p \geq \alpha\): Wir können \(H_0\) nicht verwerfen. \(H_1\) wird nicht gestützt.
  • \(p = P(\text{Ergebnis}|H_0)\): Die Wahrscheinlichkeit, unser Ergebnis zu beobachten, wenn in Wahrheit \(H_0\) stimmt.

  • Wir nennen ein Ergebnis statistisch signifikant, wenn \(p < \alpha\), wobei \(\alpha\) das zuvor festgelegte Signifikanzniveau ist.

  • Langfristig irren wir uns dadurch nur in einem akzeptablen Anteil aller Test-Entscheidungen (frequentistische Irrtumswahrscheinlichkeit).

Fragen?

Bekannte (bivariate) NHST-Verfahren: \(T\)-Test, \(\chi^2\)-Test(, \(F\)-Test)

Bekannte (bivariate) NHST-Verfahren

  • \(T\)-Test: z.B. Mittelwert-Unterschiede, Regressions- und Korrelationskoeffizienten
  • \(\chi^2\)-Test: z.B. Kreuztabelle, Modell-Fit von Strukturgleichungsmodellen
  • (\(F\)-Test: z.B. Varianzanalyse, Modell-Fit von Regressionsmodellen)


  • Unter bestimmten Annahmen (ausreichend große Fallzahlen; Verteilungsannahmen) folgen die Test-Statistiken unter \(H_0\) bekannten Verteilungen. Wir können die empirisch ermittelten Test-Statistiken mit diesen Verteilungen vergleichen, um p-Werte zu ermitteln.
  • Alternativen: Simulationsbasierte Tests wie z.B. Bootstrapping, Monte Carlo, Permutationstests

\(T\)-Test: Gruppenmittelwerte

Hypothese: Männer und Frauen unterscheiden sich in ihrem politischen Wissen.

Descriptive Statistics
Variable male (n=519) female (n=474) Total (n=993)
Mean Political_knowledge (SD) 3.44 (1.32) 2.61 (1.28) 3.04 (1.36)


Parameter Group Mean_Group1 Mean_Group2 Difference 95% CI t(987.31) p Cohen’s d Cohen’s d CI
Political_knowledge Gender 3.44 2.61 0.84 (0.67, 1.00) 10.15 < .001 0.64 (0.52, 0.77)


Effect sizes were labelled following Cohen’s (1988) recommendations.

The Welch Two Sample t-test testing the difference of Political_knowledge by Gender (mean in group male = 3.44, mean in group female = 2.61) suggests that the effect is positive, statistically significant, and medium (difference = 0.84, 95% CI [0.67, 1.00], t(987.31) = 10.15, p < .001; Cohen’s d = 0.64, 95% CI [0.52, 0.77])

\(\chi^2\)-Test: Kreuztabelle

Hypothese: Das traditionelle Medienrepertorie ist unter Männern weiter verbreitet als unter Frauen.

trad male female Total
traditional news diet: no 259 (49.9%) 313 (66.0%) 572
traditional news diet: yes 260 (50.1%) 161 (34.0%) 421
Total 519 474 993


Chi2(1) p Cramer’s V (adj.) Cramers_v_adjusted CI
25.74 < .001 0.16 (0.11, 1.00)


Effect sizes were labelled following Funder’s (2019) recommendations.

The Pearson’s Chi-squared test with Yates’ continuity correction of independence between suggests that the effect is statistically significant, and small (chi2 = 25.74, p < .001; Adjusted Cramer’s v = 0.16, 95% CI [0.11, 1.00])

Fragen?

Übungsaufgaben

Fragen?

Nächste Einheit

Open Science

Danke — bis zur nächsten Sitzung.

Marko Bachl

Literatur

Bortz, J., & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer. https://doi.org/10.1007/978-3-642-12770-0
Chan, C.-H., & Rauchfleisch, A. (2023). Bayesian multilevel modeling and its application in comparative journalism studies. International Journal of Communication, 17, 22. https://ijoc.org/index.php/ijoc/article/view/19570
Field, A. (2024). Discovering statistics using IBM SPSS statistics (6. Aufl.). Sage Publishing.
McElreath, R. (2020). Statistical rethinking: a Bayesian course with examples in R and Stan (2. Aufl.). Taylor & Francis, CRC Press.
Van Erkel, P. F. A. (2020). „Replication data for “Why don’t we learn from social media?" (Version V2) [Dataset]. Harvard Dataverse. https://doi.org/10.7910/DVN/D0COF1
Van Erkel, P. F. A., & Van Aelst, P. (2021). Why don’t we learn from social media? Studying effects of and mechanisms behind social media news use on general surveillance political knowledge. Political Communication, 38(4), 407–425. https://doi.org/ghk94s