RAG (Retrieval-Augmented Generation, deutsch: abrufgestuetzte Generierung) ist eine Architektur fuer KI-Systeme, die Large Language Models mit externen Wissensquellen verbindet. Anstatt sich ausschliesslich auf das waehrend des Trainings gespeicherte Wissen zu verlassen, ruft ein RAG-System vor der Antwortgenerierung relevante Dokumente aus einer Datenbank ab und nutzt diese als Kontext.
RAG loest zwei der groessten Probleme von LLMs: veraltetes Wissen und Halluzinationen. Damit ist es die bevorzugte Methode, um KI-Chatbots mit unternehmensspezifischem Wissen auszustatten.
Wie RAG funktioniert
Der RAG-Prozess laeuft in drei Schritten ab:
Schritt 1: Indexierung (Vorbereitung)
Dokumente werden in kleine Abschnitte (Chunks) zerlegt und in numerische Vektoren (Embeddings) umgewandelt. Diese Vektoren werden in einer Vektordatenbank gespeichert, die semantische Aehnlichkeitssuchen ermoeglicht.
Schritt 2: Retrieval (Abruf)
Wenn eine Nutzeranfrage eingeht, wird sie ebenfalls in einen Vektor umgewandelt. Das System sucht in der Vektordatenbank nach den aehnlichsten Dokumenten-Chunks und ruft die relevantesten ab.
Schritt 3: Generation (Erzeugung)
Die abgerufenen Dokumente werden zusammen mit der urspruenglichen Frage als Kontext an das LLM uebergeben. Das Modell generiert seine Antwort auf Basis dieser konkreten Informationen.
RAG vs. Fine-Tuning vs. Prompt Engineering
| Aspekt | Prompt Engineering | RAG | Fine-Tuning |
|---|---|---|---|
| Modell wird veraendert | Nein | Nein | Ja |
| Externe Daten noetig | Nein | Ja (Vektordatenbank) | Ja (Trainingsdaten) |
| Aktualitaet der Daten | Nur Trainingswissen | Beliebig aktuell | Zum Zeitpunkt des Fine-Tunings |
| Kosten | Niedrig | Mittel | Hoch |
| Implementierungsaufwand | Gering | Mittel | Hoch |
| Quellenangaben moeglich | Nein | Ja | Nein |
Anwendungsfaelle im Marketing
KI-Chatbots fuer Kundenservice
Ein RAG-gestuetzter Chatbot auf einer Webdesign-Agenturseite kann:
- Fragen zu Leistungen und Preisen aus aktuellen Dokumenten beantworten
- Projektablauf und Methodik anhand interner Leitfaeden erklaeren
- Auf relevante Portfolio-Beispiele verweisen
- Kontaktinformationen und Verfuegbarkeiten aus dem CRM abrufen
Interne Wissenssysteme
Marketing-Teams koennen RAG nutzen, um schnell Informationen aus Brand Voice-Richtlinien, Styleguides, Kampagnenberichten und Kundenunterlagen abzurufen.
Content-Recherche
Statt manuell durch Dutzende Quellen zu scrollen, kann ein RAG-System relevante Informationen aus Fachartikeln, Studien und internen Datenbanken zusammenstellen und als Grundlage fuer Content Marketing aufbereiten.
Technische Komponenten
Vektordatenbanken
Populaere Optionen fuer die Speicherung der Embeddings:
- Pinecone: Managed Service, einfache Integration
- Weaviate: Open Source, vielseitig
- Chroma: Leichtgewichtig, ideal fuer Prototypen
- pgvector: PostgreSQL-Erweiterung fuer bestehende Infrastruktur
Embedding-Modelle
Modelle wie OpenAI text-embedding-3 oder Cohere Embed wandeln Text in numerische Vektoren um, die semantische Bedeutung erfassen.
Chunking-Strategien
Die Art, wie Dokumente in Abschnitte zerlegt werden, beeinflusst die Qualitaet der Ergebnisse erheblich. Zu kleine Chunks verlieren Kontext, zu grosse verwaeassern die Relevanz. Typische Chunk-Groessen liegen zwischen 200 und 500 Tokens.
Herausforderungen
- Qualitaet der Quelldokumente: RAG ist nur so gut wie die Daten, auf die es zugreift
- Relevanz-Ranking: Nicht immer werden die besten Dokumente zurueckgeliefert
- Latenz: Der Abrufschritt addiert Verarbeitungszeit zur Antwort
- Wartung: Die Vektordatenbank muss aktuell gehalten werden, wenn sich Quelldokumente aendern