W poprzednim wpisie o chatbotach zostawiłem otwarte pytanie: chatbot oparty na AI bywa świetny, ale potrafi z pełnym przekonaniem zmyślić – podać cenę, której nie ma, albo wymyślić paragraf regulaminu. Jak zrobić bota, który zna Twoją firmę i nie konfabuluje? Odpowiedź ma trzy litery: RAG.
RAG to sposób, żeby chatbot odpowiadał z dokumentów Twojej firmy – Twoich procedur, FAQ, ofert – a nie z tego, co model wymyśli z pamięci. Zamiast pytać AI „z głowy”, system najpierw znajduje pasujące fragmenty w Twojej bazie wiedzy i podaje je modelowi jako podkładkę pod odpowiedź. Bot przestaje gadać, a zaczyna cytować.
Ten wpis tłumaczy RAG po ludzku: jak działa, jak go zbudować, ile kosztuje – i, uczciwie, gdzie się psuje. Bo RAG zmniejsza zmyślanie mocno, ale nie do zera.
- RAG (Retrieval-Augmented Generation) podpina chatbota do dokumentów Twojej firmy. Model odpowiada z nich, nie z internetu.
- Działa w skrócie tak: dokumenty → pokrojone na kawałki → zamienione na „liczby znaczenia” (embeddingi) → baza wektorowa. Przy pytaniu bot wyszukuje pasujące kawałki i odpowiada z nich, z linkiem do źródła.
- Zmniejsza zmyślanie, ale go nie zeruje. W badaniu Stanforda nawet dojrzałe narzędzia z RAG myliły się w 17–34% odpowiedzi.
- Jakość = jakość Twojej bazy. Śmieci na wejściu, śmieci na wyjściu.
- Start jest tani: embeddingi to grosze, baza wektorowa ma darmowy plan, własny GPT mieści się w abonamencie ChatGPT.
- Dla wrażliwych danych: model lokalny (np. polski Bielik) na własnym serwerze – dane nie wychodzą z firmy.
- Co to jest RAG
- Czemu chatbot zmyśla i jak RAG to ogranicza
- Jak to działa
- Co potrzebujesz i jak zbudować
- Ile to kosztuje
- Gdzie to się psuje
- Od czego zacząć
- FAQ
Co to jest RAG
Model językowy zna tylko to, co „przeczytał” podczas treningu. Nie zna Twojego cennika, Twoich procedur ani wczorajszej zmiany w ofercie. RAG – Retrieval-Augmented Generation, czyli „generowanie wspomagane wyszukiwaniem” – domyka tę lukę: przed odpowiedzią podaje modelowi właściwe fragmenty Twoich dokumentów.
AWS opisuje to jako „technikę, która wzbogaca duży model językowy o dane zewnętrzne, takie jak wewnętrzne dokumenty firmy, dając mu kontekst potrzebny do trafnej odpowiedzi”. Microsoft używa tu dobrego słowa: grounding, czyli „uziemienie” odpowiedzi w prawdziwych danych. Najprościej: bez RAG bot zgaduje z pamięci. Z RAG – odpowiada z kartki, którą mu podsuniesz.
Czemu chatbot zmyśla i jak RAG to ogranicza
Żeby zrozumieć, czemu RAG pomaga, trzeba wiedzieć, czemu model w ogóle zmyśla. Model językowy nie przechowuje faktów – generuje statystycznie prawdopodobny tekst. Gdy nie zna odpowiedzi, nie mówi „nie wiem”, tylko uzupełnia lukę czymś, co brzmi dobrze. AWS wymienia to wprost jako wadę samych modeli: „podają fałszywe informacje, gdy nie znają odpowiedzi”.
RAG to ogranicza, bo zamiast kazać modelowi zgadywać, podsuwa mu prawdziwe fragmenty. Ale tu trzeba uczciwości, bo to nie jest magiczny wyłącznik halucynacji.
W badaniu Uniwersytetu Stanforda (2024) sprawdzono profesjonalne narzędzia prawnicze oparte na RAG. Zmyślały rzadziej niż zwykły model (który na pytaniach prawniczych mylił się w 58–82% przypadków) – ale wciąż w 17–34% odpowiedzi. Wniosek autorów jest twardy: „nawet systemy RAG nie są wolne od halucynacji”. To najważniejsze zdanie tego wpisu. RAG bardzo pomaga, ale bota i tak trzeba pilnować, a odpowiedzi do ważnych decyzji – weryfikować u źródła.
Jak to działa
Pod spodem RAG to dwie fazy. Bazę przygotowujesz raz, a wyszukiwanie dzieje się przy każdym pytaniu.
Raz, na początku: bierzesz dokumenty firmy, kroisz je na fragmenty (chunking), zamieniasz każdy na embedding – ciąg liczb opisujący znaczenie tekstu – i wrzucasz do bazy wektorowej. To jak zbudowanie indeksu, w którym wyszukuje się po sensie, nie po słowach kluczowych. Przy każdym pytaniu: system znajduje w bazie najtrafniejsze fragmenty, dokleja je do pytania i dopiero to wszystko trafia do modelu. Model układa odpowiedź z podanych fragmentów – i może pokazać, z którego dokumentu ją wziął.
Co potrzebujesz i jak zbudować
Składniki są zawsze te same, cztery klocki: baza dokumentów, model embeddingów, baza wektorowa i model językowy. Różni się tylko to, ile sam musisz złożyć.
- Najprościej – własny GPT w ChatGPT. Wgrywasz pliki, a OpenAI samo robi krojenie, embeddingi i wyszukiwanie. Świetne na start i wewnętrzny FAQ. Mieści się w abonamencie ChatGPT.
- No-code, z kontrolą – n8n albo Dify. Sam spinasz pipeline (baza wektorowa, embeddingi, model), ale bez pisania kodu. To naturalne miejsce, jeśli chcesz, żeby bot działał w tle i był wpięty w Twoje systemy. Jak składa się takie przepływy, pokazujemy w przewodniku o agentach AI w n8n.
- Dla wrażliwych danych – lokalnie. Otwarte narzędzia (n8n, Dify) plus polski model Bielik postawiony na własnym serwerze. Dokumenty nie wychodzą z firmy. O tym za chwilę.
- Dla zespołu z programistą – kod. Frameworki LangChain albo LlamaIndex dają pełną kontrolę nad każdym etapem: jak kroisz dokumenty na fragmenty, jak wyszukujesz w nich właściwe informacje i jak model układa z nich odpowiedź.
To właśnie RAG działa pod spodem agenta do obsługi klienta – żeby odpowiadał z prawdziwej wiedzy firmy, a nie zmyślał.
Ile to kosztuje
Dobra wiadomość: najtańszym elementem jest zwykle to, czego ludzie boją się najbardziej – embeddingi. Oto rzędy wielkości (stan na czerwiec 2026):
| Element | Koszt |
|---|---|
| Embeddingi (OpenAI, model mniejszy) | 0,02 USD za milion tokenów – zaindeksowanie tysięcy stron to grosze |
| Baza wektorowa (Pinecone) | darmowy plan do 2 GB; płatny od 50 USD/mies |
| Tańsza baza (pgvector w Postgresie) | bez osobnej opłaty – płacisz za swój serwer |
| Platforma no-code (Dify) | darmowy plan; Professional od 59 USD/mies |
| Własny GPT | w cenie ChatGPT (Plus ok. 20 USD/mies) |
Do tego dochodzi koszt modelu językowego za same odpowiedzi (płatny za tokeny) i utrzymanie bazy – jej aktualizacja, gdy zmieniają się dokumenty. Pointa: prototyp postawisz za grosze, a prawdziwy koszt to nie technologia, tylko porządek w dokumentach i utrzymanie.
Gdzie to się psuje
RAG ma jedną nadrzędną zasadę: jakość odpowiedzi to jakość Twojej bazy. Śmieci na wejściu, śmieci na wyjściu. Jeśli baza wiedzy jest niespójna, nieaktualna albo dziurawa, bot będzie pewnie podawał złe odpowiedzi – bo znajdzie złe fragmenty. Praktycy mówią wprost, że większość wpadek RAG to nie wina modelu, tylko złego wyszukiwania.
Trzy rzeczy do pilnowania:
- Aktualność. Baza jest tak świeża, jak ostatnia aktualizacja. Zmienił się cennik? Trzeba przeindeksować, inaczej bot poda stary.
- Halucynacje mimo wszystko. RAG zmniejsza zmyślanie, nie usuwa go. Do ważnych decyzji odpowiedzi weryfikuj u źródła.
- Dane i RODO. Twoje dokumenty trafiają do modelu i bazy. Pytanie brzmi: gdzie? Dla wrażliwych danych bierz plan biznesowy z odpowiednią retencją i regionem danych, albo model lokalny.
I tu polski akcent. Bielik – otwarty model od Fundacji SpeakLeash i Cyfronet AGH – działa lokalnie, na zwykłym serwerze, bez chmury. Twórcy wprost polecają do firm RAG zamiast dostrajania modelu (fine-tuningu), żeby nie mieszać wrażliwych danych z wagami modelu. Dla kogoś, kto nie chce wysyłać dokumentów firmy za ocean, to realna droga: chatbot z wiedzą firmy, którego dane nigdy nie opuszczają Twojego serwera.
Od czego zacząć
- Zbierz jedno źródło wiedzy – nie wszystko naraz. Najlepiej dokument, do którego pracownicy albo klienci wracają najczęściej (FAQ, procedura, dokumentacja produktu).
- Uporządkuj go. To nudne i najważniejsze. Czysty, aktualny dokument da lepszego bota niż najlepszy model na bałaganie.
- Postaw prototyp – własny GPT z wgranym plikiem albo prosty przepływ w n8n. W godzinę zobaczysz, czy to działa na Twoich treściach.
- Sprawdź na trudnych pytaniach i policz, ile odpowiedzi wymaga poprawki. To mówi prawdę o Twojej bazie.
To cała filozofia: zrób, zmierz, popraw – na jednym dokumencie, nie na całej wiedzy firmy. Chatbot z RAG to nie projekt na pół roku, tylko sposób, żeby AI odpowiadało z Twoich faktów, a nie ze swojej wyobraźni. Chcesz postawić takiego bota na wiedzy swojej firmy – prywatnie i porządnie? Tym zajmujemy się na wdrożeniach i w Masterclass, a po szerszy obraz sięgnij do przewodnika po agentach AI.
FAQ
Co to jest RAG?
RAG (Retrieval-Augmented Generation) to sposób, żeby chatbot odpowiadał na podstawie dokumentów Twojej firmy, a nie tylko tego, co model „zapamiętał” podczas treningu. System najpierw wyszukuje pasujące fragmenty w Twojej bazie wiedzy, a dopiero potem model układa z nich odpowiedź – często z linkiem do źródła.
Czy RAG sprawia, że chatbot przestaje zmyślać?
Mocno zmniejsza zmyślanie, ale go nie eliminuje. W badaniu Stanforda (2024) nawet dojrzałe narzędzia oparte na RAG myliły się w 17–34% odpowiedzi. RAG „uziemia” model w faktach z Twoich dokumentów, ale jakość odpowiedzi zależy od jakości bazy – śmieci na wejściu to śmieci na wyjściu.
Jak zbudować chatbota z wiedzą firmy?
Potrzebujesz czterech klocków: bazy dokumentów, modelu embeddingów, bazy wektorowej i modelu językowego. Najprościej zacząć od własnego GPT w ChatGPT (wgrywasz pliki) albo od platformy no-code jak n8n czy Dify. Dla wrażliwych danych: własny serwer i lokalny model (np. polski Bielik).
Ile kosztuje chatbot RAG?
Embeddingi są tanie (zaindeksowanie tysięcy stron to grosze – OpenAI liczy 0,02 USD za milion tokenów). Baza wektorowa ma darmowy plan (Pinecone do 2 GB), platformy jak Dify zaczynają się od ok. 59 USD/mies, a własny GPT mieści się w abonamencie ChatGPT. Główny koszt to model językowy za odpowiedzi plus utrzymanie bazy.
Czy moje dokumenty firmowe są bezpieczne?
Zależy gdzie je trzymasz. Dostawcy oferują plany biznesowe, które domyślnie nie trenują na Twoich danych, retencję i wybór regionu danych. Dla najbardziej wrażliwych dokumentów najbezpieczniejszy jest model lokalny (np. Bielik) na własnym serwerze – dane w ogóle nie wychodzą z firmy.
Czym RAG różni się od trenowania własnego modelu?
Dostrajanie modelu (fine-tuning) to do-trenowanie gotowego modelu na własnych danych – drogie i wolne, bo zmienia sam model. RAG niczego w modelu nie zmienia – podaje mu po prostu właściwe dokumenty w momencie pytania. Dlatego RAG jest tańszy, szybszy w aktualizacji (zmieniasz dokument, nie model) i bezpieczniejszy dla wrażliwych danych.
