Anthropic, twórca Claude'a, oficjalnie przyznał, że infrastruktura nie nadąża za popytem na agentów AI. Firma wprowadza limity użytkowania i podnosi ceny tokenów, co w praktyce oznacza, że automatyzacje, które jeszcze pół roku temu kosztowały grosze, teraz mogą generować rachunki liczone w tysiącach złotych miesięcznie. Podobny trend widać u OpenAI, Google i innych dostawców.
Dla polskich małych i średnich firm to sygnał, że era "darmowego AI" się kończy. Jeszcze w 2024 roku można było bez zastanowienia podpinać ChatGPT czy Claude'a do workflow automatyzacji w Make.com czy n8n, nie licząc kosztów. W 2026 roku każde wywołanie API trzeba kalkulować, bo rachunki potrafią zaskoczyć. W mojej praktyce konsultingowej widzę to u klientów co tydzień: ktoś uruchomił agenta przetwarzającego maile, zapomniał ustawić limit i po miesiącu ma rachunek na 4000 zł za coś, co "miało kosztować 200 zł".
Dobra wiadomość: to nie koniec automatyzacji w firmach. To koniec marnotrawstwa. Firmy, które teraz nauczą się projektować agentów AI z myślą o kosztach, zyskają przewagę nad konkurencją, która wciąż pali tokeny na ślepo.
Dlaczego agenci AI nagle podrożeli?
Źródło problemu jest techniczne. Agent AI, w przeciwieństwie do zwykłego promptu, wykonuje wiele kroków: czyta dane, planuje działania, wywołuje narzędzia, sprawdza wyniki, poprawia błędy. Każdy z tych kroków to osobne wywołanie modelu, a więc osobny koszt tokenów. Jeden "prosty" agent analizujący fakturę może wygenerować 50-100 wywołań API, zamiast jednego.
Do tego dochodzi efekt context window. Agenci trzymają w pamięci całą historię swoich działań, więc każde kolejne wywołanie jest droższe niż poprzednie. Jeśli agent pracuje nad zadaniem przez 20 minut, ostatnie wywołanie może kosztować 10-20 razy więcej niż pierwsze.
Anthropic i inni dostawcy nie ukrywają, że ich GPU nie wyrabiają. Centra danych w USA mają problem z dostępem do prądu, a w Europie inwestycje w infrastrukturę AI dopiero ruszają. W efekcie ceny idą w górę, a limity użytkowania w dół. W ostatnich miesiącach Anthropic wprowadził dzienne limity tokenów nawet dla płatnych kont biznesowych, czego wcześniej nie było.
Co to oznacza dla polskich firm?
Firmy w Polsce są w specyficznej sytuacji. Z jednej strony dopiero zaczynamy wdrażać AI na większą skalę, z drugiej mamy przewagę w postaci tańszej pracy specjalistów, którzy mogą projektować oszczędne automatyzacje. Kluczowe zmiany, które obserwuję u klientów:
- Koniec z agentami typu "zrób wszystko". Zamiast jednego mega-agenta, który obsługuje cały proces, lepiej mieć pięć wyspecjalizowanych mikro-agentów. Każdy robi jedną rzecz, jest tańszy w utrzymaniu i łatwiejszy do debugowania.
- Hybrydowe podejście. Proste zadania deleguje się do tańszych modeli (Claude Haiku, GPT-4o-mini), a tylko trudne decyzje idą do flagowych modeli (Claude Sonnet, GPT-4). Różnica w kosztach to często 10-15 razy.
- Caching i batch processing. Anthropic oferuje prompt caching, który zmniejsza koszty powtarzalnych zapytań o 90%. Większość polskich firm tego nie używa, bo nie wie, że to istnieje.
- Lokalne modele dla wrażliwych danych. Ollama, LM Studio i modele open-source (Llama 3.3, Qwen) stają się realną alternatywą dla prostych zadań. Koszt: prąd i jednorazowa inwestycja w sprzęt.
Konkretne strategie oszczędzania
Pracując z firmami produkcyjnymi, e-commerce i biurami księgowymi, wypracowałem kilka zasad, które realnie obniżają koszty agentów AI o 60-80%:
Zasada pierwsza: najtańszy model, który wystarczy. Nie każde zadanie wymaga Claude Opus za 75 dolarów za milion tokenów. Ekstrakcja danych z faktury? Haiku za 0,80 dolara wystarczy. Pisanie kodu? Tu już warto zapłacić za Sonneta. Dla klienta z branży logistycznej zmiana modelu w agencie klasyfikującym zlecenia obniżyła miesięczny rachunek z 2800 zł do 340 zł. Jakość spadła o może 3%, co było akceptowalne.
Zasada druga: limity i alerty. Każdy agent musi mieć hard limit na liczbę wywołań i budżet dzienny. W Anthropic API można ustawić to przez usage limits, w OpenAI przez organization budgets. Bez tego jedna pętla w kodzie potrafi zrobić rachunek na 5000 zł w ciągu nocy.
Zasada trzecia: cache tego, co się powtarza. Jeśli agent analizuje setki dokumentów z tym samym kontekstem (np. instrukcją systemową 2000 słów), prompt caching zmniejsza koszt kontekstu o 90%. U jednego klienta z branży prawniczej zredukowało to miesięczny rachunek z 8000 zł do 1200 zł bez żadnej zmiany w funkcjonalności.
Zasada czwarta: monitorowanie kosztów per zadanie. Nie wystarczy patrzeć na miesięczny rachunek. Trzeba wiedzieć, ile kosztuje obsługa jednego klienta, jednej faktury, jednego maila. Dopiero wtedy widać, co się opłaca, a co nie. Narzędzia jak Langfuse czy Helicone dają ten wgląd za darmo lub za kilkadziesiąt dolarów miesięcznie.
Ograniczenia i ryzyka
Muszę być uczciwy: nie wszystko da się zoptymalizować. Są zadania, które wymagają drogich modeli i długiego kontekstu. Agent analizujący umowę na 40 stron i szukający ryzyk prawnych nie zadziała na Haiku. Tutaj trzeba zaakceptować wyższy koszt i szukać oszczędności gdzie indziej.
Drugie ryzyko to zależność od jednego dostawcy. Jeśli cała automatyzacja firmy opiera się na Anthropic i nagle zmienią cennik o 30%, firma jest w kropce. Warto projektować systemy tak, żeby można było przełączyć się między dostawcami. Narzędzia jak LiteLLM czy OpenRouter ułatwiają to technicznie.
Trzecie ograniczenie: modele open-source wciąż są gorsze od flagowych produktów komercyjnych w zadaniach wymagających rozumowania. Llama 3.3 70B jest świetna do prostych zadań, ale do analizy finansowej czy pisania kodu wciąż preferuję Claude'a lub GPT-4.
Co zrobić w najbliższych tygodniach?
Jeśli twoja firma używa już agentów AI lub planuje wdrożenie, polecam trzy konkretne kroki. Po pierwsze: zrób audyt obecnych kosztów. Wejdź na dashboard Anthropic lub OpenAI i sprawdź, ile wydałeś w ostatnich 30 dniach i na co. Zaskoczenie gwarantowane. Po drugie: zidentyfikuj trzy najdroższe automatyzacje i sprawdź, czy można je uruchomić na tańszym modelu. Po trzecie: wprowadź limity dzienne i miesięczne, zanim jakiś błąd w kodzie zrobi dziurę w budżecie.
Era "AI za darmo" się skończyła, ale era "AI za rozsądne pieniądze" dopiero się zaczyna. Firmy, które nauczą się projektować oszczędnie, wygrają z tymi, które wciąż wierzą, że tokeny są tanie. W Polsce mamy tu realną szansę, bo nasze firmy są od lat przyzwyczajone do liczenia każdej złotówki. To samo podejście trzeba teraz zastosować do AI.
Źródło: AI monetization: Anthropic and OpenAI token economics