Politische Positionen werden auf zwei unabhängigen Achsen verortet:
Eysenck (1954); Nolan (1971)
Meinungstragende Aussagen aus Podcast-Transkripten werden automatisiert durch ein Large Language Model (Claude Haiku 4.5) auf beiden Achsen verortet. Pro Episode werden mindestens 5 Aussagen codiert. Der Episoden-Score ist der Durchschnitt aller codierten Aussagen.
Dieses Verfahren folgt der "Ask and Average"-Methode, die eine Korrelation von r > 0.90 mit menschlichen Experten-Codierern erreicht.
Le Mens et al. (2025) "Ask and Average"; Heseltine & Clemm von Hohenberg (2024)
Das Coding Scheme ist operationalisiert mit Ankerbeispielen für verschiedene Positionen auf beiden Achsen. Besondere Aufmerksamkeit gilt der Ironie-Erkennung, da Tech-Podcasts häufig ironisch kommunizieren. Statements werden nur codiert wenn sie eine klare Meinung transportieren — reine Nachrichtenwiedergabe wird ignoriert.
Ornstein et al. (2025) Few-Shot-Prompting; Farjam et al. (2025) Codebook-LLM
Ein kontrollierter Vergleich zwischen Claude Sonnet 4.6 und Claude Haiku 4.5 auf identischen Aussagen aus 3 Episoden zeigt:
Eigener Modellvergleich, dokumentiert in docs/model_comparison.md
Transkripte werden aus YouTube Auto-Captions via yt-dlp extrahiert (deutsch, ~90-95% Genauigkeit). Podcasts ohne YouTube-Kanal werden via Apple Podcasts oder Whisper transkribiert.
Episoden werden mit einem Primzahl-Stride gesampelt: Innerhalb jedes Podcasts wird jede p-te Episode chronologisch ausgewählt (aktuell: p = 29). Ein reguläres Intervall (z.B. jede 20. Episode) synchronisiert sich mit wöchentlichen/monatlichen Upload-Rhythmen und erzeugt systematischen Bias — dieselben Nachrichtenzyklen, dieselben Weltereignisse. Ein Primzahl-Stride ist zu allen gängigen Periodizitäten (7 Tage, 4 Wochen, 12 Monate) teilerfremd und vermeidet diese temporale Autokorrelation.
Ergebnis: eine größere, zeitlich besser gestreute Stichprobe mit mehr Varianz zwischen den Podcasts.
Sampling-Design nach Feedback von Manuel Gahn