OpenAI entwickelt CriticGPT-Modell, um Fehler in der Codeausgabe von ChatGPT zu erkennen

OpenAI hat am Donnerstag ein neues KI-Modell namens CriticGPT angekündigt. Dieses Modell wurde speziell dafür entwickelt, Fehler im von ChatGPT generierten Code zu erkennen. ChatGPT soll als KI-Assistent die menschliche Überwachung von KI-Systemen verbessern und die Abstimmung zwischen KI-Verhalten und menschlichen Erwartungen verbessern.

Bei der Entwicklung von CriticGPT kommt eine Technik namens „Reinforcement Learning from Human Feedback“ (RLHF) zum Einsatz, die menschlichen Prüfern dabei hilft, die Ergebnisse großer Sprachmodelle (LLMs) präziser zu gestalten.

In einem Forschungspapier mit dem Titel „LLM Critics Help Catch LLM Bugs“ (LLM-Kritiker helfen beim Aufspüren von LLM-Bugs) legt OpenAI die Erkenntnisse bezüglich der Fehlererkennungsfunktion von CriticGPT dar.

Die Forscher trainierten CriticGPT anhand eines Datensatzes von Codebeispielen mit absichtlich eingefügten Fehlern, sodass es lernte, verschiedene Codierungsfehler zu identifizieren und zu kennzeichnen. Die Ergebnisse der Studie zeigten, dass die Annotatoren in 63 Prozent der Fälle, in denen es um natürlich auftretende LLM-Fehler ging, die Kritik von CriticGPT der menschlichen Kritik vorzogen.

Darüber hinaus konnten Teams, die CriticGPT verwendeten, umfassendere Kritiken schreiben und gleichzeitig die Konfabulationsrate im Vergleich zu rein KI-basierten Kritiken senken.

Anwendung von CriticGPT über die Codeüberprüfung hinaus

Obwohl CriticGPT in erster Linie für die Codeüberprüfung entwickelt wurde, stellten die Forscher fest, dass seine Fähigkeiten über die bloße Erkennung von Codefehlern hinausgehen. Sie testeten CriticGPT an einer Teilmenge von ChatGPT Trainingsdaten, die menschliche Annotatoren zuvor als perfekt identifiziert hatten.

Überraschenderweise hat CriticGPT in 24 Prozent dieser Fälle Fehler festgestellt, die später von menschlichen Prüfern bestätigt wurden. Dies zeigt das Potenzial des Modells, auf Aufgaben ohne Code verallgemeinert zu werden, und zeigt seine Fähigkeit, Fehler zu erkennen, die bei der menschlichen Bewertung übersehen werden könnten.

Es ist jedoch wichtig zu beachten, dass CriticGPT einige Einschränkungen hat. Das Modell wurde mit relativ kurzen ChatGPT Antworten trainiert, was es möglicherweise nicht vollständig auf die Auswertung längerer und komplexerer Aufgaben vorbereitet, die zukünftige KI-Systeme bewältigen könnten.

Darüber hinaus reduziert CriticGPT Konfabulationen zwar, entfernt sie jedoch nicht vollständig, und menschlichen Trainern können aufgrund dieser falschen Ausgaben immer noch Kennzeichnungsfehler unterlaufen.

Herausforderungen für CriticGPT-Schulungsteams

Da Sprachmodelle wie ChatGPT immer ausgefeilter werden und komplexe und komplizierte Antworten generieren, wird es für menschliche Trainer zunehmend schwieriger, die Qualität der Ergebnisse genau zu beurteilen.

Dies stellt eine grundsätzliche Einschränkung der RLHF-Technik dar, da die Modelle das Wissen und die Fähigkeiten menschlicher Prüfer übersteigen.

CriticGPT begegnet dieser Herausforderung, indem es menschlichen Trainern dabei hilft, während des Trainingsprozesses bessere Urteile zu fällen. Durch den Einsatz von KI zur Bewertung und Kritik der Ergebnisse von ChatGPT können menschliche Trainer von einer verbesserten Anleitung bei der Ausrichtung des Sprachmodells auf menschliche Ziele profitieren.

CriticGPT zeigte im Vergleich zu menschlichen Prüfern bessere Fähigkeiten beim Aufspüren von Fehlern. Es wurden etwa 85 Prozent der Fehler erkannt, während menschliche Prüfer nur 25 Prozent entdeckten.

Um CriticGPT zu trainieren, fügten menschliche Trainer absichtlich Fehler in die von ChatGPT generierten Codeausschnitte ein. Diese Methode ermöglichte es den Forschern, die Leistung von CriticGPT genau zu bewerten.

Es ist jedoch wichtig zu beachten, dass mehr Forschung erforderlich ist, um CriticGPT auf Aufgaben über die Codegenerierung hinaus anzuwenden und komplexere Aufgaben zu bewältigen.

Das aktuelle Training von CriticGPT konzentrierte sich auf kurze Codeausschnitte, die von ChatGPT generiert wurden. OpenAI erkennt die Notwendigkeit, neue Methoden zu entwickeln, um CriticGPT zu trainieren, längere und komplexere Aufgaben effektiv zu bewältigen.

Da CriticGPT selbst ein KI-Modell ist, ist es außerdem anfällig für Probleme wie Halluzinationen, die potenzielle Folgen haben können, wenn sie nicht richtig behandelt werden.