No items found.

Maak GenAI bruikbaar voor uw organisatie.

Maak Generatieve AI bruikbaar voor uw organisatie met Retrieval-Augmented Generation (RAG)
Uitdagingen met Generatieve Artificiële Intelligentie
RAG - Een uitleg die iedereen begrijpt
Hoe werkt een RAG anders dan een fundamenteel LLM?
Welke problemen lost RAG op?
Hoe ga je met RAG aan de slag?

Uitdagingen met Generatieve Artificiële Intelligentie

LLM’s (large language modellen) kunnen briljant antwoorden als je snel even je geheugen wilt opfrissen rond de actieve vulkanen in IJsland, maar ze schieten de bal soms ook nog enorm mis waardoor het klinkt dat ze niet weten waarover ze praten. En dat klopt ook, LLM’s weten hoe woorden statistisch gerelateerd zijn, maar ze hebben geen idee wat ze betekenen. Er wordt vaak gezegd dat AI de context van teksten begrijpt, maar dat is dus een andere context dan de hoe wij mensen dat begrijpen. 

LLM’s worden getraind op miljarden parameters die een statistisch verband tussen gegevens leggen. Hierdoor kan de ‘context’ van een LLM te breed zijn om nauwkeurige antwoorden te geven en krijgen we gevallen van hallucinatie.

Om het AI model vaker een doelpunt te laten scoren heeft Meta in 2020 een paper uitgebracht waarin het een RAG systeem beschrijft (link). Retrieval-augmented generation is een AI framework om de kwaliteit van LLM-gegenereerde antwoorden te verbeteren door het AI model afgelijnde informatiebronnen mee te geven. Dit heeft 2 voordelen:

  1. Het LLM model heeft toegang naar de meest recente gegevens
  2. De gebruiker weet waaruit het LLM een antwoord formuleert, zodat de antwoorden geverifieerd en dus ook vertrouwd kunnen worden.
Uitdagingen met Generatieve Artificiële Intelligentie

RAG - Een uitleg die iedereen begrijpt

Het is het makkelijkste uit te leggen door het naar jezelf te vertalen tijdens de studentenperiode. Als student heb je jarenlang algemene informatie geleerd en ben je uiteindelijk in staat om grammaticaal correcte zinnen te bouwen. Dat kan je vergelijken met een LLM, getraind op miljarden parameters en in staat om mooie antwoorden te formuleren zoals we van ChatGPT gewoon zijn. Nu, als we dan een examen moeten afleggen, moeten we onze cursus leren om relevante antwoorden te kunnen geven. Je kon de mooiste zinnen vormen, als je niet wist waarover de leerstof ging, dan kreeg je niet veel punten. Die specifieke kennis over de cursus, dat noemen we het retriever gedeelte. De retriever heeft toegang tot de nodige informatie en geeft deze mee als ‘context’ aan het LLM. De combinatie van de twee is enorm sterk zoals we hieronder verder zullen zien.

Een LLM zonder RAG systeem is dus te vergelijken met een discussie op café met iemand die overal alles een heel overtuigende mening heeft, maar eigenlijk niet weet waarover hij praat.

RAG - Een uitleg die iedereen begrijpt

Hoe werkt een RAG anders dan een fundamenteel LLM?

Nu het nut duidelijk is, komt de volgende vraag naar boven: hoe werkt het nu juist?

Allereerst moet er bepaald worden welke informatie er als context meegegeven moet worden aan het LLM. Dit kan een volledige databank zijn, een hoop ongestructureerde pdf’s, een blogpagina, transcripten van de klantendienst… Vervolgens wordt er een data pipeline opgezet die er voor zorgt dat deze verschillende datatypes vertaald worden in eenzelfde formaat en vervolgens opgeslagen worden in een databank die het generatieve AI model kan gebruiken.

De databank die nodig is wordt een ‘vector databank’ genoemd. Hierin wordt informatie opgeslagen als een statistische representatie aan de hand van een speciaal algoritme dat een ‘embedded language model’ genoemd wordt. Dus concreet: alle informatie die we aan ons LLM willen meegeven moet eerst ‘embed’ worden in een ‘vector databank’. Eens dit gebeurd is, kan deze databank snel doorzocht worden om de juiste context mee te geven zoals te zien is in onderstaande afbeelding:

  1. De vraag van de gebruiker wordt omgezet in een numerieke representatie (= vector)
  2. Deze vraag wordt eerst doorgestuurd naar de vector databank.
  3. De retriever vraagt aan de databank de relevante informatie die dan gebruikt kan worden door het LLM. Dit doet hij aan de hand van een nearest-neighbor zoekopdracht
  4. Het LLM krijgt de originele vraag van de gebruiker samen met de context van de retriever.
  5. Op basis van deze parameters krijgt de gebruiker een antwoord geformuleerd.

In stap 3 gebeurt er dus iets heel belangrijk en dit is totaal verschillend ten opzichte van de fundamentele modellen. Generatieve AI formuleert namelijk antwoorden door patronen of woorden te matchen, RAG systemen daarentegen zoeken kennis op basis van gelijkheid van de context van de zoekopdracht. Bijgevolg zijn de antwoorden die hieruit komen typisch een stuk relevanter en nauwkeuriger. 

Standard RAG schema

Lees hier meer over op onze technische deep dive via deze link
Hoe werkt een RAG anders dan een fundamenteel LLM?

Welke problemen lost RAG op?

Het implementeren kan voor organisaties heel wat voordelen naar boven brengen, hieronder zijn enkele van de belangrijkste al opgelijst:

  1. Minimaliseren van hallucinaties: RAG systemen geven enorme statische LLM’s (die meestal ook verouderde trainingsdata hebben) toegang tot nieuwe of specifieke informatie om antwoorden te formuleren. Deze afgelijnde informatie zorgt ervoor dat er nauwkeurigere antwoorden gegeven kunnen worden.
  2. Up-to-date informatie: Fundamentele LLM’s zijn altijd met ‘oude’ informatie getraind, dit noemen we de cut-off datum. Een RAG systeem kan real-time informatie over huidige evenementen en onderwerpen na de cut-off datum meegeven aan het systeem. Dit zorgt ervoor dat de antwoorden relevanter en nauwkeuriger zijn.
  3. Domeinspecifieke kennis: RAG is een effectieve en efficiënte manier om fundamentele modellen uit te breiden met domeinspecifieke gegevens. Vector databanken kunnen schaalbaar en tegen relatief lage kosten worden opgebouwd.
  4. Makkelijk te updaten: RAG frameworks omzeilen de noodzaak voor kostbare, tijdrovende hertraining en het bijwerken van fundamentele modellen. Databanken kunnen eenvoudig worden bijgewerkt door nieuwe documenten toe te voegen (bijvoorbeeld met betrekking tot nieuwe producten, procedures, webpaginas…). De nieuwe gegevens worden door het embedding model vertaald naar vectoren op een continue, incrementele basis.
  5. Bronvermelding: RAG geeft het broodnodige inzicht in de bronnen van generatieve AI-reacties - elke reactie die verwijst naar bepaalde gegevens bevat bronvermeldingen, waardoor directe verificatie en controle mogelijk is.
Welke problemen lost RAG op?

Hoe ga je met RAG aan de slag?

Tips & tricks coming

Hoe ga je met RAG aan de slag?

INECT

We want to hear your ideas

Don’t worry, we don’t share your data!

See our privacy policy

Tell us a bit about your project and what you're aiming to achieve at the moment!

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.