RAG (Retrieval Augmented Generation)

RAG ist eine Abkürzung und steht für Retrieval-Augmented Generation. Das ist ein Ort mit Daten, wo die KI-Modelle aktuelle Information für ihre Antworten nachschauen können, damit die Antwort relevant und zuverlässig ist.

LLMs sind stark, kommen aber mit einigen Limitierungen wie:

  • Limitiertes Wissen: LLMs antwortet nur basierend auf ihren Trainigsdaten, die obsolet sein können.
  • Halluzinationen: Die Modelle generieren manchmal plausible aber falsche Aussagen.
  • Allgemeine Antworten: Da LLMs kein Zugang auf externe Daten haben, können sie unpräzise Antworten liefern.

RAG löst die Probleme, indem er Halluzinationen verringert, Qualität von Antworten verbessert, und das real-time Suchen ermöglicht.

Wie funktioniert RAG?

  1. Daten sammeln
    Zuerst muss man alle nötige Daten sammeln je nach Bedarf, was man braucht.
  2. Data chunking
    Die Daten müssen dann in kleinere Abschnitte zerlegt werden. Damit das Modell später das Wissen effizient nutzt, hilft es, ein Thema pro Abschnitt zu behalten. So erhöht man auch Effizienz, da nicht die ganzen, sondern nur die relevantesten Dokumente zu bearbeiten sind. 
  3. Dokument-Embeddings
    Sobald die kleineren Abschnitten parat sind, muss man sie in Vektoren konvertieren. Das beinhaltet Datatransformation in Embeddings, also die numerische Darstellungen, die die semantische Bedeutung des Textes erfassen. Das hilft, die Benutzerfrage zu verstehen und anhand der Bedeutung der Frage mit relevaten Informationen aus den Dokumenten zu beantworten. So ist die Antwort sinnvoller und entspricht der Nutzeranfrage.
  4. Bearbeitung der Benutzerfrage
    Genauso wie die Dokumenten, muss die Anfrage embedded oder vektorisiert werden. Dann werden Fragenembeddings mit Dokumentenembeddings verglichen. Das identifiziert die Textabschnitten, die am relevantesten zu der Anfrage sind durch “cosine similarity” und “Euclidean Distanz”. Je näher die beide Embeddings beieinander liegen, desto relevater wird die Antwort.
  5. Antwort Generierung
    Die extrahierte Dokumentenstücke und die Benutzeranfrage werden in das LLM geschickt und bearbeitet. Anhand Algorithmen generiert sie eine relevante Antwort.

Vektor

Ein Vektor ist ein mathematisches Objekt, das eine Grösse mit sowohl Richtung als auch Länge beschreibt. 

Computer brauchen Vektoren, um Fragen sinnvoll zu beantworten. Rechner können Bedeutung nicht direkt verstehen, da sie in Zahlen rechnen. Damit Computer die Antwort berechnen kann, muss man die Frage und das Wissen in eine vergleichbare numerische Form gebracht werden. Vektoren sind genau diese Form.

Vektor • einfach erklärt mit Beispielen · [mit Video]

 

    teilen