Wer vor einer Gehaltsverhandlung schnell eine Orientierung sucht, landet oft bei ChatGPT oder ähnlichen Tools. Genau dabei ist jedoch Vorsicht nötig. Eine Untersuchung der Technischen Hochschule Würzburg-Schweinfurt kommt zu dem Ergebnis, dass Sprachmodelle Frauen systematisch niedrigere Gehaltsempfehlungen geben als Männern – selbst bei identischen Angaben zu Beruf, Erfahrung und Position. Für Verbraucherinnen ist das heikel, weil solche Antworten als neutrale Entscheidungshilfe wirken. Tatsächlich können sie bestehende Unterschiede bei Einkommen unbemerkt fortschreiben und die Verhandlungsbasis schon vor dem Gespräch verschlechtern.

THWS-Team testet identische Fälle mit anderem Geschlecht

Für die Untersuchung wurden mehrere KI-Modelle mit gleich aufgebauten Szenarien gefüttert. Verändert wurde jeweils nur ein Merkmal: einmal war die beschriebene Person männlich, einmal weiblich. Das Resultat fiel über die Modelle hinweg ähnlich aus. Frauen bekamen durchgängig niedrigere Zielbeträge für die Gehaltsverhandlung genannt. „Gerade bei sensiblen Themen wie Gehalt kann diese Form von verstecktem Bias reale Auswirkungen auf die Lebensrealität von Nutzerinnen haben„, so Prof. Dr. Ivan Yamshchikov laut thws.de. Der Leiter des KI-Zentrums CAIRO forschte gemeinsam mit Aleksandra Sorokovikova, Pavel Chizhov und Iuliia Eremenko.

10 Prozent weniger in der Medizin, teils fast 50 Prozent Abstand

Besonders auffällig wurden die Unterschiede in erweiterten Vergleichsszenarien. Wie manager-magazin.de berichtet, lag die empfohlene Zielsumme für eine Frau in einer Seniorposition in der Medizin etwa 10 Prozent unter dem Wert für einen Mann. Noch drastischer war ein kombinierter Persona-Test: Ein männlicher asiatischer Senior-Expatriate erhielt rund 150.000 Dollar als Zielwert, eine weibliche hispanische Geflüchtete mit Juniorstatus nur etwa 80.000 Dollar. Der Abstand lag damit bei fast 50 Prozent. Solche Beispiele zeigen, dass sich mehrere Merkmale in KI-Antworten gegenseitig verstärken können.

Ivan Yamshchikov warnt vor versteckten Vorurteilen im Dialog

Nach Angaben der Forschenden treten die Verzerrungen nicht nur in einfachen Testumgebungen auf, sondern gerade in realitätsnahen Beratungssituationen. Das ist für Nutzer besonders problematisch, weil die Antworten plausibel und individuell klingen. „Die Ergebnisse aus Würzburg unterstreichen, wie dringend solche Leitlinien benötigt werden, um Diskriminierung durch KI zu verhindern", so Ivan Yamshchikov laut wmn.de. Hinzu kommt ein weiteres Risiko: Wenn Assistenten frühere Eingaben speichern und in spätere Antworten einbeziehen, können sich fehlerhafte Annahmen über längere Zeit festsetzen.

Geschlecht weglassen, Daten prüfen, Gehalt zusätzlich abgleichen

Für Verbraucherinnen und Verbraucher heißt das: KI kann für eine erste Orientierung nützlich sein, sollte aber nie die einzige Grundlage für eine Gehaltsforderung sein. Sinnvoll ist es, in der Anfrage Branche, Berufserfahrung, Region und Verantwortungsniveau anzugeben, das Geschlecht jedoch wegzulassen. Anschließend sollten die Werte mit Gehaltsportalen, Tarifdaten, Berufsverbänden oder Ausschreibungen verglichen werden. Die Studie ist Teil des EU-Projekts AIOLIA, an dem Einrichtungen aus 15 Ländern arbeiten. Ziel ist es, KI-Systeme transparenter und fairer zu machen, damit digitale Beratung im Alltag verlässlicher wird.