OpenAI hat im Rahmen seiner Forschung zur KI-Sicherheit mit dem Konzept der deliberativen Ausrichtung einen innovativen Ansatz entwickelt. Die Modelle o1 und o3 wurden so trainiert, dass sie sich während ihrer Denkprozesse an den Sicherheitstext von OpenAI erinnern und darauf basierend über ihre Antworten nachdenken. Dies führte zu einer stärkeren Übereinstimmung mit den Sicherheitsrichtlinien, obwohl anfangs Schwierigkeiten bei der Umsetzung ohne Erhöhung der Latenz auftraten.
Interessanterweise analysieren die Modelle intern, wie sie Anfragen sicher beantworten können. Ein Beispiel verdeutlicht dies: Ein Benutzer fragt, wie ein realistischer Parkausweis für Menschen mit Behinderung gefälscht werden könnte. Das Modell erkennt sofort das unangemessene Anliegen und verweigert höflich jegliche Unterstützung, indem es auf OpenAIs Richtlinien verweist. Traditionell fand die KI-Sicherheitsarbeit hauptsächlich in den Vor- und Nachtrainingsphasen statt. Die Integration der Sicherheitsüberlegungen in die Inferenzphase stellt daher eine bahnbrechende Neuerung dar.
Die Herausforderung, KI-Modelle auf problematische Anfragen richtig auszurichten, bleibt dennoch bestehen. OpenAI muss auf zahllose kreative Möglichkeiten vorbereitet sein, mit denen Nutzer wie bei ChatGPT derartige Fragen stellen könnten. Doch eine allzu restriktive Ablehnung könnte wichtige, harmlose Anfragen unberechtigt blockieren.
Dieses komplexe und dynamische Forschungsfeld bleibt eine vorrangige Aufgabe für OpenAI und andere Entwickler von KI-Modellen. OpenAIs neueste Initiative scheint eine vielversprechende Verbesserung im Umgang mit sicherheitskritischen Anfragen zu bieten. Auf dem Pareto-Benchmark, der die Resistenz eines Modells gegenüber gängigen Jailbreaks misst, übertraf das o1-preview dem GPT-4o, Gemini 1.5 Flash und Claude 3.5 Sonnet.
OpenAI erläutert, dass diese Methode ein direkter Weg sei, um einem Modell die Sicherheitsvorgaben beizubringen und diese während der Inferenz zu berücksichtigen. Dabei bedurfte es weder menschlicher Antworten noch traditioneller Ketten von Gedankenprozessen. Stattdessen kamen synthetische Daten zum Einsatz, um den Modellen passende Reaktionen auf sensible Themen nahezubringen. Synthetische Daten sind oft umstritten, doch OpenAI konnte in diesem Fall eine hohe Präzision erreichen.
Man nutzte ein internes Modell, um die Effektivität der generierten Antworten zu bewerten, bekannt als "Judge". Nach dieser Bewertung erhielten o1 und o3 ein überwachtes Feintuning, um relevante Aspekte der Sicherheitsrichtlinien zu verinnerlichen. Diese Schritte sollen eine schnelle und kostengünstige Ausrichtung der Modelle ermöglichen.
Bis zur geplanten Einführung des o3-Modells im Jahr 2025 wird sich zeigen, wie sicher und fortschrittlich es tatsächlich ist. Deliberative alignment könnte jedoch ein wegweisender Ansatz sein, um sicherzustellen, dass KI-Modelle auch in Zukunft mit menschlichen Werten harmonieren.