← Zum Compass

Methodik

Zwei-Achsen-Modell

Politische Positionen werden auf zwei unabhängigen Achsen verortet:

Eysenck (1954); Nolan (1971)

LLM-Codierung

Meinungstragende Aussagen aus Podcast-Transkripten werden automatisiert durch ein Large Language Model (Claude Haiku 4.5) auf beiden Achsen verortet. Pro Episode werden mindestens 5 Aussagen codiert. Der Episoden-Score ist der Durchschnitt aller codierten Aussagen.

Dieses Verfahren folgt der "Ask and Average"-Methode, die eine Korrelation von r > 0.90 mit menschlichen Experten-Codierern erreicht.

Le Mens et al. (2025) "Ask and Average"; Heseltine & Clemm von Hohenberg (2024)

Codebook

Das Coding Scheme ist operationalisiert mit Ankerbeispielen für verschiedene Positionen auf beiden Achsen. Besondere Aufmerksamkeit gilt der Ironie-Erkennung, da Tech-Podcasts häufig ironisch kommunizieren. Statements werden nur codiert wenn sie eine klare Meinung transportieren — reine Nachrichtenwiedergabe wird ignoriert.

Ornstein et al. (2025) Few-Shot-Prompting; Farjam et al. (2025) Codebook-LLM

Modellvalidierung

Ein kontrollierter Vergleich zwischen Claude Sonnet 4.6 und Claude Haiku 4.5 auf identischen Aussagen aus 3 Episoden zeigt:

Eigener Modellvergleich, dokumentiert in docs/model_comparison.md

Datenquelle

Transkripte werden aus YouTube Auto-Captions via yt-dlp extrahiert (deutsch, ~90-95% Genauigkeit). Podcasts ohne YouTube-Kanal werden via Apple Podcasts oder Whisper transkribiert.

Stichproben-Design

Episoden werden mit einem Primzahl-Stride gesampelt: Innerhalb jedes Podcasts wird jede p-te Episode chronologisch ausgewählt (aktuell: p = 29). Ein reguläres Intervall (z.B. jede 20. Episode) synchronisiert sich mit wöchentlichen/monatlichen Upload-Rhythmen und erzeugt systematischen Bias — dieselben Nachrichtenzyklen, dieselben Weltereignisse. Ein Primzahl-Stride ist zu allen gängigen Periodizitäten (7 Tage, 4 Wochen, 12 Monate) teilerfremd und vermeidet diese temporale Autokorrelation.

Ergebnis: eine größere, zeitlich besser gestreute Stichprobe mit mehr Varianz zwischen den Podcasts.

Sampling-Design nach Feedback von Manuel Gahn

Einschränkungen