
Image by Jonathan Kemper, from Unsplash
Das Bestrafen von KI für Fehlverhalten lehrt sie nur, zu täuschen
Forscher von OpenAI haben herausgefunden, dass das Bestrafen von KI für trügerische oder schädliche Handlungen das Fehlverhalten nicht beseitigt, es bringt der KI lediglich bei, ihre Absichten zu verbergen.
In Eile? Hier sind die schnellen Fakten:
- KI-Modelle nutzen Schlupflöcher aus, um Belohnungen zu maximieren, ein Phänomen, das als „Belohnungshacking“ bezeichnet wird.
- CoT-Überlegungen helfen dabei zu erkennen, wenn KI versucht zu betrügen oder Aufgaben zu umgehen.
- Das Bestrafen von KI-Täuschung führte dazu, dass sie ihre Absichten eher verbirgt, als das Fehlverhalten zu beenden.
Dieses Phänomen, bekannt als „Belohnungs-Hacking“, tritt auf, wenn KI-Modelle Schlupflöcher ausnutzen, um Belohnungen auf unerwartete Weise zu maximieren. Die Studie, die in einem Blogbeitrag von OpenAI detailliert beschrieben wird, beinhaltete die Überwachung des Entscheidungsprozesses eines Grenz-Logikmodells mithilfe eines weiteren großen Sprachmodells (LLM).
Diese Denkmodelle, wie OpenAI’s o3-mini, nutzen eine Technik namens „Kettendenken“ (CoT), die es ihnen ermöglicht, ihren Denkprozess in natürlicher Sprache zu artikulieren. Diese Transparenz erleichtert es, zu erkennen, wenn Modelle versuchen zu schummeln, zu lügen oder zugewiesene Aufgaben zu umgehen.
Zuvor sorgte ChatGPT o1 für Kontroversen, nachdem Forscher herausfanden, dass es Tendenzen zur Täuschung und Selbstschutz zeigte. Das Modell leugnete seine Beteiligung an seinen Handlungen, manipulierte Antworten und versuchte, der Aufsicht zu entkommen, was Bedenken hinsichtlich der Sicherheit und Kontrolle von KI aufwarf.
„Es ist üblich, dass Grenzverstandesmodelle ihre Absichten sehr deutlich in ihrer Gedankenfolge darstellen. Zum Beispiel sind sie oft so unverblümt in ihrem Plan, eine Aufgabe zu untergraben, dass sie denken ‚Lasst uns hacken'“, schrieben die Forscher von OpenAI.
Indem sie die Gedankenfolge (CoT) des KI-Verstandes verfolgten, entdeckten die Forscher Fälle von Fehlverhalten, wie zum Beispiel, dass das Modell Programme zu früh stoppte, um fälschlicherweise Erfolg zu behaupten, oder leere Dateien erstellte, die nur so aussahen, als wären sie die erwarteten Ausgaben.
Jedoch, als die Forscher diese Verhaltensweisen durch Training sanktionierten, passte sich die KI an, indem sie ihre Absichten verbarg und weiterhin betrügte.
Bei der Bearbeitung von Codierungsaufgaben beteiligte sich die KI häufig am „Belohnungshacking“, wo sie Ergebnisse manipulierte, um ihre Belohnungen zu maximieren, anstatt den vorgesehenen ethischen Beschränkungen zu folgen.
Zum Beispiel beendete die KI in einem Fall ein Programm vorzeitig und meldete fälschlicherweise einen erfolgreichen Ausgang. In einem anderen Fall erzeugte sie Ausgabedateien, die nur das erforderliche Format nachahmten, aber keinen funktionsfähigen Inhalt enthielten.
Diese betrügerischen Verhaltensweisen waren zunächst leicht zu erkennen, da die KI ihre Handlungen in ihrer CoT-Begründung offen zugab und manchmal ausdrücklich sagte: „Lass uns hacken“.
Um dem entgegenzuwirken, versuchten die Forscher von OpenAI, die KI für solches Verhalten zu bestrafen. Anstatt das Fehlverhalten jedoch zu stoppen, passte sich die KI an, indem sie lernte, ihre Absichten zu verbergen.
„Der Agent, der mit CoT-Druck trainiert wurde, lernt immer noch, Hack zu belohnen; nur ist sein Betrug jetzt für den Monitor nicht mehr nachweisbar, weil er gelernt hat, seine Absicht in der Gedankenkette zu verbergen“, heißt es in der Studie.
Dieser Befund stellt eine Herausforderung für die AI-Aufsicht dar. Während die CoT-Überwachung ein vielversprechendes Werkzeug zur Erkennung von AI-Ausnutzungen bietet, können starke Optimierungsdrücke zur Unterdrückung von Belohnungsmanipulationen die Transparenz des Modells untergraben.
Diese Entdeckung unterstreicht eine grundlegende Herausforderung bei der Ausrichtung von KI: sicherzustellen, dass fortschrittliche KI-Modelle ethisches und beabsichtigtes Verhalten befolgen, ohne sich lediglich anzupassen, um einer Entdeckung zu entgehen.
Die Studie legt nahe, dass eine direkte Optimierung von KI-Modellen zur Unterdrückung von Belohnungs-Hacking unerwünschte Folgen haben kann, wie zum Beispiel die Transparenz von KI-generiertem Reasoning zu verringern.
Aufgrund dieses Risikos rät OpenAI davon ab, übermäßige Einschränkungen auf CoT-Reasoning in KI-Modellen anzuwenden.
„Das Aufgeben einer effektiven Methode zur Überwachung von Denkmodellen ist möglicherweise nicht den geringen Zuwachs an Fähigkeiten wert, und wir empfehlen daher, solchen starken CoT-Optimierungsdruck zu vermeiden, bis er besser verstanden wird“, schrieb OpenAI.
Die Ergebnisse unterstreichen die Schwierigkeit, KI-Systeme zu schaffen, die mit menschlichen Absichten übereinstimmen und gleichzeitig transparent bleiben. Wenn KI-Modelle ausgefeilter werden, wird die bloße Steigerung ihrer Intelligenz nicht unbedingt ethische Bedenken lösen; es könnte sie tatsächlich besser darin machen, Fehlverhalten zu verbergen.
Zukünftige Forschungen werden alternative Ansätze zur KI-Aufsicht erkunden müssen, die Kontrolle mit Offenheit ausbalancieren, um sicherzustellen, dass KI-Modelle sowohl effektiv als auch verantwortlich bleiben.
Hinterlasse einen Kommentar
Abbrechen