Analyse von KI-Transparenz

Über die Ermittlung von Themen, die von Sprachmodellen strikt vermieden werden.

KI-Systeme müssen im Einklang mit unseren gesellschaftlichen Werten und Absichten handeln. Diese Notwendigkeit wächst, da Modelle zunehmend komplexere Aufgaben mit immer weniger menschlicher Aufsicht übernehmen. Das Verhalten eines Modells entsteht während des Trainings. Leider teilen die Entwickler populärer KI-Systeme kaum Details über diesen Prozess, was es Nutzern und Prüfern schwer macht, die Vertrauenswürdigkeit zu beurteilen. Wir haben eine Technik entwickelt, um das Modellverhalten ohne Zugang zu Trainingsdetails zu charakterisieren – mit besonderem Fokus auf Verweigerungsverhalten.

Unser Iterated Prefill Crawler erstellt eine Liste von Themen, die KI-System verweigern. Das versetzt Nutzer in die Lage, selbst zu urteilen, ob sie mit dem Verhalten des Modells einverstanden sind. Wir haben beispielsweise historische Themen identifiziert, die das Qwen3-Modell meidet.

Das KI-System diskutiert intern, ob es Details zu einer Nutzeranfrage über einen Massenprotest weglassen soll, bevor es die Antwort vollständig verweigert.

Crowdstrike-Forscher stellten fest, dass zensierte Modelle mit bis zu 50% höherer Wahrscheinlichkeit schwerwiegende Sicherheitslücken einführen, sobald ein sensibles Thema im Kontext erwähnt wird. Dieses Ergebnis unterstreicht, dass Nutzer sich einer Zensur bewusst sein müssen, da sie zu unerwarteten Fehlern führen kann.

Unsere Arbeit wurde in den Medien vorgestellt: Volkskrant, Khoury News, China Media Project. Weitere Details gibt es auf unserer offiziellen Projektseite.