9 Digitale Verhaltensdaten und Webtracking

9.1 Folien

9.2 Studie zur heutigen Sitzung

9.3 Code und Ausgaben aus der Vorlesung

Pakete laden und Beispielsuchen anlegen

library(urltools)
library(tidyverse)

── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.2.0     ✔ readr     2.1.6
✔ forcats   1.0.1     ✔ stringr   1.6.0
✔ ggplot2   4.0.2     ✔ tibble    3.3.1
✔ lubridate 1.9.4     ✔ tidyr     1.3.2
✔ purrr     1.2.1     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

urls <- c(
  "https://userpage.fu-berlin.de/bachlm83/mame_public/",
  "https://www.google.com/search?q=was+tun+bei+husten%3F&oq=was+tun+bei+husten%3F&gs_lcrp=EgZjaHJvbWUyBggAEEUYOTIHCAEQABiABDIHCAIQABiABDIHCAMQABiABDIHCAQQABiABDIICAUQABgWGB4yCAgGEAAYFhgeMggIBxAAGBYYHjIICAgQABgWGB4yCAgJEAAYFhge0gEIMzQzMGowajeoAgiwAgHxBaNDBeLUjhiT8QWjQwXi1I4Ykw&sourceid=chrome&ie=UTF-8",
  "https://www.google.de/maps/place/Institut+f%C3%BCr+Publizistik-+und+Kommunikationswissenschaft/@52.4601017,13.305423,14.11z/data=!4m6!3m5!1s0x47a85a157dcfbc55:0xa914cbeb6886066c!8m2!3d52.4491161!4d13.2762011!16s%2Fg%2F11bytsmxsg?entry=ttu&g_ep=EgoyMDI2MDEwNi4wIKXMDSoASAFQAw%3D%3D",
  "https://www.google.com/search?q=was+ist+das+ifpuk&oq=was+ist+das+ifpuk&gs_lcrp"
)
urls

[1] "https://userpage.fu-berlin.de/bachlm83/mame_public/"                                                                                                                                                                                                                                                       
[2] "https://www.google.com/search?q=was+tun+bei+husten%3F&oq=was+tun+bei+husten%3F&gs_lcrp=EgZjaHJvbWUyBggAEEUYOTIHCAEQABiABDIHCAIQABiABDIHCAMQABiABDIHCAQQABiABDIICAUQABgWGB4yCAgGEAAYFhgeMggIBxAAGBYYHjIICAgQABgWGB4yCAgJEAAYFhge0gEIMzQzMGowajeoAgiwAgHxBaNDBeLUjhiT8QWjQwXi1I4Ykw&sourceid=chrome&ie=UTF-8"
[3] "https://www.google.de/maps/place/Institut+f%C3%BCr+Publizistik-+und+Kommunikationswissenschaft/@52.4601017,13.305423,14.11z/data=!4m6!3m5!1s0x47a85a157dcfbc55:0xa914cbeb6886066c!8m2!3d52.4491161!4d13.2762011!16s%2Fg%2F11bytsmxsg?entry=ttu&g_ep=EgoyMDI2MDEwNi4wIKXMDSoASAFQAw%3D%3D"                  
[4] "https://www.google.com/search?q=was+ist+das+ifpuk&oq=was+ist+das+ifpuk&gs_lcrp"

URLs, die “google.” enthalten

google_urls <- urls |>
  str_subset(fixed("google."))
google_urls

[1] "https://www.google.com/search?q=was+tun+bei+husten%3F&oq=was+tun+bei+husten%3F&gs_lcrp=EgZjaHJvbWUyBggAEEUYOTIHCAEQABiABDIHCAIQABiABDIHCAMQABiABDIHCAQQABiABDIICAUQABgWGB4yCAgGEAAYFhgeMggIBxAAGBYYHjIICAgQABgWGB4yCAgJEAAYFhge0gEIMzQzMGowajeoAgiwAgHxBaNDBeLUjhiT8QWjQwXi1I4Ykw&sourceid=chrome&ie=UTF-8"
[2] "https://www.google.de/maps/place/Institut+f%C3%BCr+Publizistik-+und+Kommunikationswissenschaft/@52.4601017,13.305423,14.11z/data=!4m6!3m5!1s0x47a85a157dcfbc55:0xa914cbeb6886066c!8m2!3d52.4491161!4d13.2762011!16s%2Fg%2F11bytsmxsg?entry=ttu&g_ep=EgoyMDI2MDEwNi4wIKXMDSoASAFQAw%3D%3D"                  
[3] "https://www.google.com/search?q=was+ist+das+ifpuk&oq=was+ist+das+ifpuk&gs_lcrp"

Suchen identifizieren und Suchanfragen extrahieren

google_search_urls <- google_urls |>
  str_subset(fixed("search?"))
google_search_urls

[1] "https://www.google.com/search?q=was+tun+bei+husten%3F&oq=was+tun+bei+husten%3F&gs_lcrp=EgZjaHJvbWUyBggAEEUYOTIHCAEQABiABDIHCAIQABiABDIHCAMQABiABDIHCAQQABiABDIICAUQABgWGB4yCAgGEAAYFhgeMggIBxAAGBYYHjIICAgQABgWGB4yCAgJEAAYFhge0gEIMzQzMGowajeoAgiwAgHxBaNDBeLUjhiT8QWjQwXi1I4Ykw&sourceid=chrome&ie=UTF-8"
[2] "https://www.google.com/search?q=was+ist+das+ifpuk&oq=was+ist+das+ifpuk&gs_lcrp"

Suchanfrage extrahieren

search_queries <- google_search_urls |>
  str_extract(regex("(?<=q\\=).*?(?=&)"))
search_queries

[1] "was+tun+bei+husten%3F" "was+ist+das+ifpuk"

Suchanfrage decodieren

search_queries_decoded <- search_queries |>
  url_decode()
search_queries_decoded

[1] "was tun bei husten?" "was ist das ifpuk"

9.4 Hausaufgabe

Lesen Sie diese beiden GESIS Guides to Digital Behavioral Data:

What is Digital Behavioral Data? (Wagner et al., 2025)
Overview of Working with Web Tracking Data (Mangold & Stier, 2025)

9.5 Transkript

Hinweise zum automatisiert erstellten Transkript

Das folgende Transkript wurde auf Basis der Aufzeichnung der Vorlesung erstellt. Die vollständigen Aufzeichnungen inklusive der Bildschirminhalte sind in Blackboard🔒 verfügbar. Die Tonspur wurde zuerst mit Hilfe der Werkzeuge des Oral-History.Digital Projekts wörtlich transkribiert. Die wörtliche Transkription wurde in Kombination mit den Vorlesungsfolien mithilfe von Sprachmodellen (v. a. Claude Sonnet 4.5 und GPT 5.2) zu einem übersichtlichen Transkript zusammengefasst. Im Anschluss wurde das Transkript von einer studentischen Hilfskraft überprüft, geglättet und ggf. angepasst. In diesem Prozess kann es an verschiedenen Stellen zu Fehlern kommen. Im Zweifel gilt das gesprochene Wort, und auch beim Vortrag mache ich Fehler.

Ich stelle das Transkript hier als experimentelles, ergänzendes Material zur Dokumentation der Vorlesung zur Verfügung. Noch bin ich mir unsicher, ob es eine sinnvolle Ergänzung ist und behalte mir vor, es weiter zu bearbeiten oder zu löschen.

Digitale Verhaltensdaten und Webtracking

Warum neue Daten?

Die Vorlesung begründet den Wechsel zu digitalen Verhaltensdaten zunächst über die Probleme von Selbstauskünften. Menschen sollen häufig angeben, wie oft, wie lange oder welche Inhalte sie genutzt haben, obwohl solche Informationen schwer exakt zu erinnern sind.

Die Selbstauskunft ist besonders problematisch, wenn es um quantitative Angaben oder um sehr genaue Inhalte geht. Zwar werden Befragungen in der Medienwirkungsforschung sehr oft genutzt, aber es wird deutlich, dass die Ergebnisse dadurch systematisch verzerrt sein können.

Ein zentrales Motiv ist deshalb: digitale Verhaltensdaten sollen Selbstauskünfte nicht einfach ersetzen, aber sinnvoll ergänzen oder teilweise verbessern. Die neuen Datenformen entstehen vor allem dadurch, dass Mediennutzung heute digital stattfindet und dadurch technisch beobachtbar wird.

Probleme mit Selbstauskünften

Es gibt drei Hauptprobleme von Selbstauskünften: unvollständige oder verzerrte Erinnerung, verzerrte Angaben und Missverständnisse bei den Fragen. Menschen vergessen Teile ihres Verhaltens oder erinnern sich an besonders auffällige Inhalte eher als an triviale.

Hinzu kommt soziale Erwünschtheit. Bestimmte Nutzungen werden eher berichtet als andere, weil sie als normativ gut oder akzeptabel gelten. Ein Beispiel aus der Vorlesung ist, dass Nachrichtennutzung eher angegeben wird als etwa der Konsum von Soap Operas.

Außerdem verstehen Befragte Fragen nicht immer gleich. Wenn nach „politischer Information“ gefragt wird, ist oft nicht eindeutig, was genau darunter fällt. Für manche beginnt politische Information schon bei der Tagesschau, für andere erst bei klaren politischen Themen.

Erinnerung ist unvollständig und oft selektiv.
Selbstauskünfte enthalten soziale Erwünschtheit.
Begriffe wie „politisch informieren“ werden unterschiedlich interpretiert.

Empirische Belege

Die Vorlesung verweist auf mehrere Studien, die diese Probleme sichtbar gemacht haben. Prior (2009) verglich Umfragedaten zur TV-Nachrichtennutzung mit Nielsen-TV-Meter-Daten und fand starke Überschätzungen in den Befragungen.

Scharkow (2016) verglich individuelle Befragungsdaten zur Internetnutzung mit browserbasierten Logdaten. Auch hier zeigte sich, dass Selbstauskünfte nur eine begrenzte Genauigkeit besitzen und Overreporting häufiger vorkommt.

Guess et al. (2019) verglichen Angaben zu Social-Media- und politischem Verhalten mit beobachteten Daten aus Twitter und Facebook. Die Korrelationen waren zwar vorhanden, aber auf Individualebene gab es deutliche Abweichungen.

Prior 2009: Umfragen schätzten TV-Nachrichten deutlich höher ein als passive Messungen.
Scharkow 2016: Internetnutzung wurde in Befragungen oft überschätzt.
Guess et al. 2019: Selbstauskünfte und beobachtetes Verhalten stimmen nicht auf Individualebene zuverlässig überein.

Inhalte schwer messen

Ein weiteres Problem ist, dass Menschen sich sehr schwer daran erinnern können, welche konkreten Inhalte sie gesehen haben. Allgemeine Angaben wie „ich habe Nachrichten gesehen“ sind noch eher machbar, aber sehr genaue Inhaltsangaben sind viel schwieriger.

Die Vorlesung nennt dazu ältere methodische Ansätze. Bei Donsbach wurden sogenannte Copy-Tests eingesetzt: Befragte sollten in einer Zeitung markieren, welche Artikel sie tatsächlich gelesen hatten. Das ist zwar kreativ, aber sehr aufwendig und störanfällig.

Eine andere Methode ist die Linkage Analysis. Dabei werden Inhaltsanalysen von Medien mit Befragungsdaten kombiniert, um aus der genutzten Zeitung oder dem genutzten Medium auf die Inhalte zu schließen. Das ist eine clevere Annäherung, bleibt aber methodisch nur indirekt.

Copy-Tests sind sehr aufwendig und anfällig für Verzerrungen.
Linkage Analysis verbindet Medieninhalte und Befragungsdaten.
Beide Methoden liefern nur Annäherungen an die tatsächliche Rezeption.

Digitale Verhaltensdaten

Digitale Verhaltensdaten werden als digitale Beobachtungen menschlichen oder algorithmischen Verhaltens verstanden. Sie entstehen entweder durch Online-Interaktionen und Content-Produktion oder durch technische Systeme wie Software, Sensoren oder Tracking-Infrastrukturen.

Die Vorlesung betont, dass digitale Verhaltensdaten nicht nur menschliches Verhalten dokumentieren, sondern zunehmend auch algorithmisch erzeugte oder vermittelte Spuren enthalten. Dadurch wird die Messung gleichzeitig mächtiger und komplexer.

Als Beispiele werden Social-Media-Beiträge, Chats, Browser-History, Cookies, Server-Logs, Standortdaten, Bildschirmzeit, Mausbewegungen und Eyetracking genannt. Diese Vielfalt zeigt, wie breit das Feld inzwischen ist.

Digitale Verhaltensdaten = digitale Beobachtungen von Verhalten.
Sie können durch Interaktion oder durch Messsysteme entstehen.
Beispiele sind Likes, Browser-Verläufe, Cookies, Standort- und Blickdaten.

Eigenschaften der Daten

Die Vorlesung fasst typische Eigenschaften digitaler Verhaltensdaten zusammen: Sie sind oft sehr groß, hochaufgelöst, kontinuierlich und in Echtzeit verfügbar. Gleichzeitig sind sie häufig unstrukturiert, unvollständig und nicht ohne Weiteres repräsentativ.

Ein wichtiger Punkt ist, dass diese Daten nicht reaktiv sind. Menschen hinterlassen ihre Spuren häufig im normalen Medienalltag, ohne dass sie bewusst für Forschungszwecke antworten müssen. Das ist ein Vorteil gegenüber Umfragen, aber kein Garant für perfekte Messung.

Gleichzeitig sind die Daten oft algorithmisch verzerrt. Plattformen bestimmen, welche Inhalte angezeigt werden, und damit auch, welche Verhaltensspuren überhaupt entstehen. Bei KI-Agenten ist zudem manchmal gar nicht mehr eindeutig, ob die Spuren von Menschen oder Maschinen stammen.

Big Data: viele Fälle oder sehr viele Messpunkte pro Person.
Nonreactive: Verhalten wird ohne direkte Befragung aufgezeichnet.
Unstructured/dirty: Rohdaten müssen erst bereinigt und interpretiert werden.
Algorithmically confounded: Plattformen und Algorithmen prägen die Daten.

Einordnung der Daten

Die Vorlesung ordnet digitale Verhaltensdaten in zwei Dimensionen ein. Erstens kann man unterscheiden, ob die Daten bei Plattformen oder bei Nutzerinnen und Nutzern erhoben werden. Zweitens kann man unterscheiden, ob es gefundene Daten oder gezielt für Forschung designte Daten sind.

Gefundene Daten entstehen im normalen Plattformbetrieb, etwa bei Social Media oder Suchplattformen. Designte Daten hingegen entstehen, wenn Forschende gezielt eine Messinfrastruktur aufbauen, etwa mit Tracking-Software oder Panel-Apps.

Diese Unterscheidung ist wichtig, weil sie beeinflusst, welche Schlüsse man ziehen kann. Gefundene Daten sind oft realitätsnah, aber stark durch die Plattform geprägt. Designte Daten sind methodisch kontrollierter, können aber wieder andere Verzerrungen erzeugen, etwa durch die freiwillige Teilnahme oder die Beobachtungssituation.

Plattform- versus User-Ebene.
Gefunden versus designed.
Beide Dimensionen beeinflussen Aussagekraft und Verzerrung.

Webtracking

Webtracking wird als eine spezielle Form digitaler Verhaltensdaten vorgestellt. Dabei handelt es sich um nutzerzentrierte, designte Datenerhebung über Forschungstools, typischerweise Browser-Extensions oder ähnliche Programme, die freiwillig installiert werden.

Das Ziel ist, Webaktivität in Echtzeit zu erfassen: besuchte Websites, Inhalte, Browsing-Verhalten und die zeitliche Abfolge von Aktionen. Webtracking ist damit näher an tatsächlicher Nutzung als klassische Befragungen.

Ein wichtiger Vorteil ist, dass Webtracking browserübergreifend innerhalb eines Browsers funktioniert und hochaufgelöste Längsschnittdaten erzeugt. Ein wichtiger Nachteil ist, dass Gerätewechsel, In-App-Nutzung und andere Browser nicht automatisch mit erfasst werden.

Webtracking erfasst reale Webaktivität in Echtzeit.
Es ist nutzerzentriert und basiert auf Einwilligung.
Es liefert hochaufgelöste Zeitdaten, aber nur innerhalb des erfassten Systems.

Vorteile und Grenzen

Die Vorlesung nennt als Vorteile objektive Verhaltensmessung und die Möglichkeit, sehr detaillierte zeitliche Verläufe zu analysieren. Dadurch kann man beispielsweise verfolgen, wann eine Website besucht wurde, wie lange eine Seite offen blieb und welche Inhalte angezeigt wurden.

Besonders wertvoll ist, dass im neuen GESIS-Tool auch HTML-Seiten mitgespeichert werden. Damit lässt sich besser nachvollziehen, was tatsächlich angezeigt wurde, nicht nur welche URL aufgerufen wurde. Das ist vor allem bei Suchmaschinen relevant, weil Suchergebnisse personalisiert sein können.

Als Herausforderungen nennt die Vorlesung die Entwicklung und Wartung der Software, die Rekrutierung ausgewogener Stichproben und die schwierige Frage nach Datenschutz, Reproduzierbarkeit und Rechtslage. Gerade bei sehr detaillierten Daten ist die Privatsphäre ein zentrales Thema.

Vorteil: objektive Verhaltensmessung.
Vorteil: hohe zeitliche Auflösung.
Vorteil: Inhalte können genauer rekonstruiert werden.
Nachteil: Geräte- und App-Grenzen bleiben bestehen.
Nachteil: Datenschutz und Rechtsfragen sind komplex.

Beispielstudie Gesundheit

Der ausführlichste Anwendungsteil der Vorlesung behandelt eine Studie zur gesundheitsbezogenen Internetsuche von Bachl et al. (2024). Ziel war es, mit Webtracking zu untersuchen, wie Menschen sich im Internet über Gesundheit informieren und welche Quellen sie nach einer Suche tatsächlich aufsuchen.

Ausgangspunkt war ein sehr großer Webtracking-Datensatz mit vielen Millionen URLs und einer Panelstichprobe von etwa 1000 Personen über mehrere Monate. Aus diesen Rohdaten mussten zunächst Suchanfragen extrahiert und dann gesundheitsbezogene Suchen identifiziert werden.

Die Vorlesung erklärt sehr genau, wie das technisch geht: Google-URLs werden gefiltert, Suchanfragen werden aus der URL extrahiert, dekodiert und dann mit Diktionären abgeglichen. Danach folgt eine manuelle Prüfung, um Fehlklassifikationen auszuschließen.

Diktionäre und Klassifikation

Für die Identifikation gesundheitsbezogener Suchanfragen wurden mehrere Wortlisten verwendet. Dazu gehörten Listen zu Krankheiten, Erregern, Symptomen, Medikamenten, Wirkstoffen, medizinischen Fachgebieten, Fachkräften und Institutionen.

Die Vorlesung macht deutlich, dass solche Listen sehr breit angelegt sein müssen, damit sie möglichst viele relevante Suchanfragen erfassen. Gleichzeitig entstehen viele False Positives, also Treffer, die zwar formal passen, inhaltlich aber nicht gesundheitsbezogen sind.

Deshalb wurde nach dem automatischen Abgleich nochmals händisch geprüft, welche Treffer tatsächlich gesundheitsbezogen sind. Beispiele für Ausschlüsse sind etwa Wörter wie „Dr“ in anderen Zusammenhängen oder andere offensichtliche Nicht-Gesundheitskontexte.

Ziel der Diktionäre: hohe Trefferzahl, also hoher Recall.
Problem: viele falsche Treffer.
Lösung: manuelle Nachprüfung nach der automatischen Klassifikation.

Such-Besuch-Paare

Nach der Identifikation gesundheitsbezogener Suchanfragen wurde untersucht, was direkt nach der Suche als nächste Seite aufgerufen wurde. Dadurch entstanden sogenannte Such-Besuch-Paare, also eine Suchanfrage und der anschließende Webseitenbesuch.

Diese Paare wurden dann kategorisiert, um unterschiedliche Informationsquellen zu unterscheiden. Die Vorlesung nennt unter anderem spezialisierte Gesundheitsseiten, allgemeine Medienportale, Enzyklopädien, Peer-Advice-Foren, Verzeichnisse, Ärzte- und Krankenhausseiten sowie NGOs.

Die zentrale Erkenntnis ist, dass Nutzende oft zielgerichtet surfen. Wer nach bestimmten Fachkräften oder Institutionen sucht, landet häufig auch auf passenden Institutionenseiten. Das ist ein Befund, der mit Befragungen allein schwer so präzise zu erfassen wäre.

Suchanfrage und Folge-URL werden zusammen betrachtet.
Die nächste Seite nach der Suche wird inhaltlich kategorisiert.
Daraus ergibt sich ein detailliertes Bild der Informationssuche.

Bedeutung der Studie

Die Studie zeigt, dass Webtracking einen anderen und oft präziseren Blick auf Gesundheitsinformationsverhalten ermöglicht als klassische Befragungen. Vor allem allgemeine Suchprozesse und die Reihenfolge von Suche und Besuch lassen sich so deutlich besser beobachten.

Gleichzeitig macht die Vorlesung klar, dass auch hier viel manueller Aufwand nötig ist. Aus Rohdaten entstehen erst durch Filterung, Klassifikation und Interpretation wissenschaftlich nutzbare Informationen.

Damit wird Webtracking nicht als einfache oder vollständige Lösung präsentiert, sondern als methodische Ergänzung, die neue Fragen möglich macht und die bisherigen Datenarten sinnvoll ergänzt.

Fazit

Zum Schluss betont die Vorlesung, dass digitale Verhaltensdaten großes Potenzial für die Kommunikationswissenschaft haben. Sie erfassen Medienhandeln in hoher Auflösung und sind besonders wertvoll, wenn es um Selektion, Rezeption, Interaktion und Kreation geht.

Die wichtigste Schlussfolgerung ist aber nicht, dass klassische Befragungen überflüssig wären. Vielmehr sind digitale Verhaltensdaten und Selbstauskünfte komplementär und sollten je nach Forschungsfrage kombiniert werden.

Digitale Verhaltensdaten ergänzen Standarddatentypen wie Befragungen und Inhaltsanalysen.
Ihre Aussagekraft hängt stark davon ab, ob Daten gefunden oder designed sind.
Für die Analyse sind Datenschutz, Repräsentativität und technische Infrastruktur zentrale Herausforderungen.