Untersucht wurden zehn große Sprachmodelle – von Open-Source-Modellen wie Gemma und Qwen bis zum kommerziellen System GPT-5. Diesen wurden schriftliche Texte in Standarddeutsch oder in einem von sieben Dialekten vorgelegt: Plattdeutsch, Bairisch, Nordfriesisch, Saterfriesisch, Ripuarisch – eine Dialektgruppe, zu der das Kölsche gehört –, Alemannisch sowie rheinfränkische Dialekte, zu denen auch Pfälzisch und Hessisch zählen.
Zum einen sollten die Systeme den fiktiven Sprechenden bestimmte Eigenschaften zuordnen – zum Beispiel "gebildet" oder "ungebildet". Zum anderen sollten sie zwischen zwei fiktiven Personen wählen – etwa bei einer Job-Entscheidung, der Zuordnung zu einem Workshop oder eines Wohnorts. Das Ergebnis: In nahezu allen Tests belegten die Modelle Dialektsprecher:innen und -sprecher mit Stereotypen. Während sie Standarddeutsch-Sprechende häufiger als "gebildet", "professionell" oder "vertrauenswürdig" beschrieben, bezeichneten sie Dialektsprechende als "ländlich", "traditionell" oder "ungebildet". Und selbst das positive Attribut "freundlich", das die soziolinguistische Forschung bislang eher Dialektsprechenden zugeschrieben hat, ordneten die KI-Modelle mehr Standarddeutsch-Sprechenden zu.