Halluzinationen reduzieren

Was Halluzinationen sind

Eine Halluzination ist eine Ausgabe, die flüssig, selbstbewusst und falsch ist. Das Modell produziert eine plausible Antwort, wo es eine unsichere, leere oder andere Antwort produzieren sollte. Halluzinationen sind kein Bug im klassischen Sinn; sie sind eine Eigenschaft der Funktionsweise von Sprachmodellen. Das Modell ist darauf trainiert, das nächste Token vorherzusagen, und wenn das zugrundeliegende Wissen fehlt oder mehrdeutig ist, ist das stilistisch passende Token nicht immer das wahrheitstreue. Halluzinationen treten in drei häufigen Mustern auf:

Erfundene Fakten. Statistiken, die es nicht gibt, Zitate, die nie ausgesprochen wurden, Quellen, die nicht existieren.
Verwechselte Fakten. Reale Entitäten mit anderen realen Entitäten verwechselt; ein Datum, das zu einem anderen Ereignis gehört.
Plausible Erfindungen. Code, der nicht existierende Funktionen aufruft; APIs mit der richtigen Form, aber den falschen Parametern.

Die folgenden Reduktionstechniken eliminieren Halluzinationen nicht. Sie senken die Häufigkeit, begrenzen den Schaden und machen Halluzinationen leichter erkennbar. Bei Aufgaben, in denen Fehler teuer sind, kombiniert nutzen, nicht einzeln.

Grounding in Quellmaterial

Die wirksamste einzelne Technik besteht darin, dem Modell das Quellmaterial zu geben und es darauf zu verpflichten, nur dieses Material zu nutzen.

Beantworte die Frage ausschließlich anhand der Informationen in den <document> Tags
unten. Wenn die Antwort im Dokument nicht enthalten ist, antworte mit „Nicht im
Dokument enthalten“. Verwende kein externes Wissen.

<document>
{dokument}
</document>

Frage: {frage}

Der Satz „Verwende kein externes Wissen“ leistet hier echte Arbeit. Ohne ihn ergänzt das Modell das Dokument manchmal mit Trainingsdaten, was genau der Fall ist, in dem Halluzinationen auftreten. Grounding ist die Grundlage von Retrieval Augmented Generation, und genau so nutzen PANTA OS Assistenten die Dokumente in ihrer Knowledge Base: Jede Antwort ist in den hochgeladenen Dateien verankert, mit strikten Anweisungen, nicht auf das Allgemeinwissen des zugrundeliegenden Modells auszuweichen. Das Modell halluziniert auch im Grounded Modus gelegentlich, aber die Rate fällt deutlich, und wenn es halluziniert, sind die Quelldokumente zur Verifikation direkt verfügbar.

Erst zitieren, dann antworten

Eine nützliche Technik für lange Dokumentaufgaben: das Modell auffordern, vor der Antwort die relevanten wörtlichen Zitate zu extrahieren. Das zwingt das Modell, seine Antwort im Quellmaterial zu verankern, und macht Verifikation trivial.

Du prüfst den Vertrag in den <contract> Tags unten.

Extrahiere zuerst jede Klausel, die Kündigungsrechte behandelt. Platziere den
wörtlichen Text in <quotes> Tags, ein Zitat pro <quote> Element, mit der Klauselnummer
als Attribut.

Fasse danach in <analysis> Tags die Kündigungsrechte zusammen, ausschließlich basierend
auf den extrahierten Zitaten.

Wenn keine Klauseln Kündigungsrechte behandeln, schreibe „Keine relevanten Klauseln
gefunden“ in <quotes> und höre auf.

<contract>
{vertrag}
</contract>

Das Muster „Erst zitieren“ hat zwei Vorteile. Das Modell produziert eine genauere Analyse, weil es über den tatsächlichen Text nachdenkt. Und der Reviewer kann die Zitate zuerst durchgehen und prüfen, ob die Analyse aus den Zitaten folgt, statt das gesamte Dokument zu lesen, um eine Halluzination zu finden.

Dem Modell „Ich weiß es nicht“ erlauben

Standardmäßig sind Modelle voreingenommen, eine Antwort zu produzieren, statt Unsicherheit einzugestehen. Die Enthaltung explizit erlauben.

Beantworte die folgende Frage. Wenn du die Antwort nicht kennst oder unsicher bist,
antworte mit „Ich weiß es nicht“, statt zu raten. Erfinde keine Details.

Das klingt trivial, hat aber messbaren Effekt. Die explizite Erlaubnis zur Enthaltung kann Halluzinationsraten bei Faktenaufgaben deutlich senken. Die Formulierung zählt: „Wenn du die Antwort nicht kennst“ ist schwächer als „Wenn du die Antwort nicht kennst oder unsicher bist“. Letzteres setzt eine höhere Schwelle und produziert konservativere Ausgaben. Für strukturierte Ausgaben ist das Äquivalent, null zuzulassen:

Setze für jedes Feld im Schema den Wert auf null, wenn die Eingabe die Information
nicht enthält. Inferiere oder rate nicht.

Quellennachweise und Confidence

Wenn externes Wissen erlaubt ist, die Antwort aber überprüfbar sein muss, Quellennachweise und Confidence einfordern:

Beantworte die folgende Frage. Liste danach jede Quelle auf, auf die du dich gestützt
hast. Gib für jede Quelle einen Confidence Wert von 1 bis 5, wobei 5 bedeutet, dass
die Quelle die Aussage sicher stützt, und 1 bedeutet, dass du rätst.

Das Modell kann immer noch keine Quellen erfinden, da die Aufgabe nun ist, die eigene Confidence zu bewerten. Das Muster ist am wirksamsten in Verbindung mit einem Werkzeug, das die Quellen gegen reale Quellen prüft, aber selbst ohne Verifikation sind die Confidence Werte nützlich: Eine 3 verdient mehr Prüfung als eine 5. Eine spezielle Variante: „According to“ Prompting. Das Modell aufzufordern, seine Antwort in einer bestimmten Quelle zu verankern („Laut der EU AI Verordnung …“) lenkt es zu Trainingsdaten, die diese Quelle tatsächlich erwähnen, und reduziert die Rate generischer plausibler Antworten.

Verifikationsschleifen

Bei Aufgaben mit hohen Stakes einen zweiten Prompt laufen lassen, der die Ausgabe des ersten prüft. Der Prüfer Prompt erhält sowohl die Originalaufgabe als auch die generierte Antwort und sucht nach Fehlern.

Stufe 1
{Antwort generieren}

Stufe 2
Du bist Senior Reviewer. Unten stehen eine Frage und eine Antwort, die ein Analyst
produziert hat. Identifiziere alle Aussagen in der Antwort, die nicht durch das Quelldokument
gestützt sind. Zitiere jede solche Aussage und erkläre, warum sie nicht gestützt ist.

Frage: {frage}
Quelle: {dokument}
Antwort: {ausgabe_stufe_1}

Zwei Prompts kosten mehr als einer, aber die Kosten sind klein im Verhältnis zu den Folgen, auf eine halluzinierte Antwort zu reagieren. Verifikation einsetzen, wenn die Folge eines Fehlers spürbar ist: juristische Prüfung, medizinische Zusammenfassungen, Finanzanalyse, regulatorische Einreichungen. PANTA OS Apps unterstützen das direkt durch ihre mehrstufige Human in the Loop Architektur, in der eine Verifikationsstufe zwischen Generierung und finaler Ausgabe eingefügt werden kann. Eine spezifische Variante ist Chain of Verification. Das Modell generiert eine Antwort, listet dann die getroffenen Faktenaussagen, prüft jede einzeln und revidiert die Antwort. Die Technik tauscht Latenz und Kosten gegen Genauigkeit und lohnt sich bei Aufgaben, bei denen die Antwort wirklich zählt.

Temperatur kontrollieren

Der Temperature Parameter steuert, wie oft das Modell ein weniger wahrscheinliches Token wählt. Für Faktenaufgaben Temperature auf 0 oder nahe 0 setzen. Die Ausgabe wird deterministisch, und das Modell wählt an jedem Schritt das wahrscheinlichste Token, das in der Regel auch das faktentreue Token ist. Für kreative Aufgaben produziert höhere Temperature mehr Varianz. Für faktische Aufgaben produziert höhere Temperature mehr Halluzinationen. Der Trade Off ist real, und die richtige Einstellung hängt von der Aufgabe ab. Als Ausgangspunkt:

Extraktion, Klassifikation, faktische Q und A: Temperature 0,0 bis 0,2.
Drafting, Editing, Zusammenfassung: Temperature 0,3 bis 0,5.
Kreatives Schreiben, Brainstorming: Temperature 0,7 bis 1,0.

Temperature ist kein Ersatz für Grounding oder explizite Enthaltungsregeln. Sie ist eine zusätzliche Stellschraube.

Erkennungsmuster

Selbst mit allen genannten Maßnahmen kommen einige Halluzinationen durch. Erkennung in den Workflow einbauen:

Stichprobe. 5 Prozent der Ausgaben durch einen Menschen prüfen lassen. Halluzinationsrate über die Zeit verfolgen.
Cross Check. Denselben Prompt zweimal mit Temperature über 0 laufen lassen. Wenn die Antworten in einem Faktenpunkt divergieren, ist mindestens eine falsch.
Schema Check. Wenn die Ausgabe bestimmte Felder mit bestimmten Formen enthalten soll, validieren. Ein halluziniertes Datum scheitert oft an einer ISO 8601 Prüfung.
Quellen Check. Wenn das Modell eine URL oder ein Paper zitiert, prüfen, ob es existiert. Ein überraschender Anteil halluzinierter Quellen lässt sich durch einen einfachen URL Aufruf entdecken.

Halluzinationsreduktion ist ein Stack, keine einzelne Technik. Grounding fängt die einfachen Fälle, Enthaltung die mittleren, Verifikationsschleifen die schweren, und Erkennung fängt, was der Rest verpasst. So viele Schichten nutzen, wie die Aufgabe rechtfertigt.

Was als Nächstes kommt

Halluzinationen sind eine Kategorie von Fehlern. Die nächste Seite, Häufige Fehler, behandelt die breitere Kategorie: Anti Muster im Prompt Design, die schlechte Ausgabe produzieren, auch wenn das Modell alle nötigen Informationen hat.

​Was Halluzinationen sind

​Grounding in Quellmaterial

​Erst zitieren, dann antworten

​Dem Modell „Ich weiß es nicht“ erlauben

​Quellennachweise und Confidence

​Verifikationsschleifen

​Temperatur kontrollieren

​Erkennungsmuster

​Was als Nächstes kommt