Call:
lm(formula = Political_knowledge ~ Age, data = d)
Coefficients:
(Intercept) Age
1.4761 0.0296
Methoden der empirischen Kommunikations- und Medienforschung
Freie Universität Berlin
Frage: Welche (lineare) Beziehung besteht zwischen zwei metrischen Variablen?
Funktion: Beschreibung der bivariaten Verteilung zweier metrischer Variablen
Konvention: Mit Regression ist meist eine lineare Regression mit OLS-Schätzung (ordinary least squares, Methode der kleinsten Quadrate) gemeint
Call:
lm(formula = Political_knowledge ~ Age, data = d)
Coefficients:
(Intercept) Age
1.4761 0.0296


Beispiel für vier Befragte:
| Age | y | yhat | e | e2 |
|---|---|---|---|---|
| 23 | 1 | 2.16 | -1.16 | 1.34 |
| 37 | 4 | 2.57 | 1.43 | 2.04 |
| 55 | 2 | 3.10 | -1.10 | 1.22 |
| 62 | 5 | 3.31 | 1.69 | 2.85 |

Die Regressionsgerade minimiert die Fehlerquadratsumme.
Mit OLS-Schätzung: \(b_1 = \frac{\sum (x_i - \bar{x}) \times (y_i - \bar{y})}{\sum (x_i - \bar{x})^2}\) und \(b_0 = \bar{y} - b_1 \times \bar{x}\) oder in Matrix-Notation \(\beta = (X^TX)^{-1}X^TY\)
Beispiel für vier Befragte:
| Age | y | yhat | e | e2 | e_M | e_M2 |
|---|---|---|---|---|---|---|
| 23 | 1 | 2.16 | -1.16 | 1.34 | -2.04 | 4.18 |
| 37 | 4 | 2.57 | 1.43 | 2.04 | 0.96 | 0.91 |
| 55 | 2 | 3.10 | -1.10 | 1.22 | -1.04 | 1.09 |
| 62 | 5 | 3.31 | 1.69 | 2.85 | 1.96 | 3.82 |

\(R^2 = \frac{\sum(y_i - \bar{y})^2 - \sum(y_i - \hat y)^2}{\sum(y_i - \bar{y})^2}\)

R| Parameter | Coefficient | 95% CI | t(991) | p | Std. Coef. | Std. Coef. 95% CI | Fit |
|---|---|---|---|---|---|---|---|
| (Intercept) | 1.48 | (1.16, 1.79) | 9.12 | < .001 | 0.00 | (-0.06, 0.06) | |
| Age | 0.03 | (0.02, 0.04) | 10.02 | < .001 | 0.30 | (0.24, 0.36) | |
| R2 | 0.09 |
r = 0.30, 95% CI [0.25, 0.36], t(991) = 10.02, p < .001
| Age | Estimate | Std. Error | z | Pr(>|z|) | S | 2.5 % | 97.5 % |
|---|---|---|---|---|---|---|---|
| Type: response | |||||||
| 39.0 | 2.63 | 0.0583 | 45.1 | <0.001 | Inf | 2.52 | 2.75 |
| 53.0 | 3.04 | 0.0412 | 73.9 | <0.001 | Inf | 2.96 | 3.13 |
| 66.9 | 3.46 | 0.0583 | 59.3 | <0.001 | Inf | 3.34 | 3.57 |
| Nicht standardisiert | Standardisiert (Korrelation) | |
|---|---|---|
| Vergleich (immer möglich) |
Wir vergleichen zwei Personen, die sich im Alter um ein Jahr unterscheiden. Die ältere Person beantwortet 0.03 Fragen mehr korrekt als die jüngere Person. | Wir vergleichen zwei Personen, die sich im Alter um eine SD unterscheiden. Die ältere Person liegt in der Verteilung der korrekt beantworteten Fragen Fragen um 0.3 SD über der jüngeren Person. |
| Veränderung, Intervention (kausal; zusätzliche Annahmen) | Wenn eine Person um ein Jahr älter wird, dann beantwortet sie 0.03 Fragen mehr korrekt. | Wenn eine Person sich in der Altersverteilung um eine SD nach oben bewegt, dann bewegt sie sich in der Verteilung der korrekt beantworteten Fragen um 0.3 SD nach oben. |
Wir können Mittelwertvergleiche innerhalb der linearen Regression durchführen.
In bivariater Analyse äquivalent zum \(T\)-Test. Interessanter in multipler Regression (Mittelwertvergleiche unter Berücksichtigung weiterer Variablen)
| Parameter | Coefficient | 95% CI | t(991) | p | Fit |
|---|---|---|---|---|---|
| (Intercept) | 3.44 | (3.33, 3.55) | 60.48 | < .001 | |
| Gender (female) | -0.84 | (-1.00, -0.67) | -10.14 | < .001 | |
| R2 | 0.09 |
| Parameter | Group | Mean_Group1 | Mean_Group2 | Difference | 95% CI | t(987.31) | p | Cohen’s d | Cohen’s d CI |
|---|---|---|---|---|---|---|---|---|---|
| Political_knowledge | Gender | 3.44 | 2.61 | 0.84 | (0.67, 1.00) | 10.15 | < .001 | 0.64 | (0.52, 0.77) |
$NCV
| Parameter | Coefficient | 95% CI | t(991) | p | Fit |
|---|---|---|---|---|---|
| (Intercept) | 1.48 | (1.16, 1.79) | 9.12 | < .001 | |
| Age | 0.03 | (0.02, 0.04) | 10.02 | < .001 | |
| R2 | 0.09 |
| Parameter | Coefficient | 95% CI | t(991) | p | Fit |
|---|---|---|---|---|---|
| (Intercept) | 3.04 | (2.96, 3.13) | 73.88 | < .001 | |
| Age c | 0.03 | (0.02, 0.04) | 10.02 | < .001 | |
| R2 | 0.09 |
| Parameter | Coefficient | 95% CI | t(991) | p | Fit |
|---|---|---|---|---|---|
| (Intercept) | 1.48 | (1.16, 1.79) | 9.12 | < .001 | |
| Age | 0.03 | (0.02, 0.04) | 10.02 | < .001 | |
| R2 | 0.09 |
| Parameter | Coefficient | 95% CI | t(991) | p | Fit |
|---|---|---|---|---|---|
| (Intercept) | 1.48 | (1.16, 1.79) | 9.12 | < .001 | |
| Age 10 | 0.30 | (0.24, 0.35) | 10.02 | < .001 | |
| R2 | 0.09 |


| Parameter | Coefficient | 95% CI | t(991) | p | Fit |
|---|---|---|---|---|---|
| (Intercept) | 1.48 | (1.16, 1.79) | 9.12 | < .001 | |
| Age | 0.03 | (0.02, 0.04) | 10.02 | < .001 | |
| R2 | 0.09 |
| Parameter | Coefficient | 95% CI | t(991) | p | Fit |
|---|---|---|---|---|---|
| (Intercept) | 0.00 | (-0.06, 0.06) | 0.00 | > .999 | |
| Age z | 0.30 | (0.24, 0.36) | 10.02 | < .001 | |
| R2 | 0.09 |
| Parameter | Coefficient | 95% CI | t(991) | p | Std. Coef. | Std. Coef. 95% CI | Fit |
|---|---|---|---|---|---|---|---|
| (Intercept) | 1.48 | (1.16, 1.79) | 9.12 | < .001 | 0.00 | (-0.06, 0.06) | |
| Age | 0.03 | (0.02, 0.04) | 10.02 | < .001 | 0.30 | (0.24, 0.36) | |
| R2 | 0.09 |
report_table() schätzt das Modell im Hintergrund mit standardisierten quasi-metrischen Variablen neu, um die standardisierten Koeffizienten zu erhalten.

| Parameter | Coefficient | 95% CI | t(991) | p | Fit |
|---|---|---|---|---|---|
| (Intercept) | 1.48 | (1.16, 1.79) | 9.12 | < .001 | |
| Age | 0.03 | (0.02, 0.04) | 10.02 | < .001 | |
| R2 | 0.09 |
| Parameter | Coefficient | 95% CI | t(991) | p | Fit |
|---|---|---|---|---|---|
| (Intercept) | -0.38 | (-0.70, -0.06) | -2.31 | 0.021 | |
| Age log | 0.43 | (0.35, 0.51) | 10.41 | < .001 | |
| R2 | 0.10 |
Mit der linearen Regression und ihren Varianten können wir sehr viele Fragen beantworten.
Grundgedanke immer: Wir legen Linien durch die Daten; die Steigung der Linien quantifiziert den Zusammenhang.
Abschnitt Grundlagen der Regression ist Voraussetzung für mindestens 2/3 der folgenden Inhalte.
Abschnitte Annahmen und ihre Überprüfung und Transformation von Variablen sind nützlich, aber nicht essentiell.
Multiple lineare Regression
Marko Bachl