Anthropic właśnie udostępnił zestaw narzędzi, które zmieniają sposób pracy z agentami AI w Claude. Zamiast pisać kod, testować w terminalu i prosić programistę o każdą poprawkę - teraz możesz budować, mierzyć i ulepszać umiejętności swoich agentów bezpośrednio w interfejsie. Bez jednej linijki kodu.
Dla polskich firm, które dopiero wchodzą w automatyzację, to przełom praktyczny. Nie musisz już zatrudniać dewelopera, żeby sprawdzić, czy Twój chatbot dobrze odpowiada na pytania klientów. Nie musisz zgadywać, czy agent obsługuje reklamacje lepiej po zmianie promptu. Teraz mierzysz to liczbami.
Nowe funkcje Skill Creator w Claude pozwalają tworzyć zestawy testów (evals), uruchamiać je jednym kliknięciem i porównywać wyniki różnych wersji agenta. To podejście, które do tej pory było dostępne tylko dla zespołów z budżetem na infrastrukturę MLOps.
Co dokładnie się zmieniło w Claude Skill Creator
Skill Creator to narzędzie wbudowane w Claude, które pozwala definiować "umiejętności" agenta - czyli konkretne zadania, które ma wykonywać. Dotychczas można było te umiejętności tworzyć i edytować. Teraz doszły trzy rzeczy:
- Automatyczne generowanie testów - Claude sam proponuje scenariusze testowe na podstawie opisu umiejętności. Jeśli Twój agent ma odpowiadać na pytania o dostępność produktów, system wygeneruje 10-15 różnych wariantów takich pytań.
- Mierzalne wyniki (evals) - każdy test zwraca ocenę liczbową. Widzisz, ile odpowiedzi agent dał poprawnych, ile częściowo, a ile kompletnie chybionych. Nie "wydaje mi się, że działa lepiej", tylko 78% vs 92%.
- Porównywanie wersji - zmieniasz prompt, uruchamiasz te same testy i widzisz, czy nowa wersja jest lepsza. Jak A/B test, ale dla agentów AI.
W praktyce wygląda to tak: opisujesz umiejętność po polsku ("agent ma odpowiadać na pytania o status zamówienia, podając numer przesyłki i przewidywany termin dostawy"), klikasz "wygeneruj testy", przeglądasz scenariusze, uruchamiasz i dostajesz raport. Cały proces zajmuje 5-10 minut zamiast kilku godzin kodowania.
Dlaczego to ma znaczenie dla polskich MŚP
Większość polskich firm z sektora MŚP nie ma działu IT zdolnego do budowy pipeline'ów testowych dla AI. Według danych PARP z 2025 roku, tylko 12% małych firm w Polsce korzysta z jakiejkolwiek formy automatyzacji opartej na AI. Główna bariera to nie koszt subskrypcji - to koszt wdrożenia i utrzymania.
Narzędzia no-code w Claude obniżają tę barierę radykalnie. Oto trzy scenariusze, w których polskie firmy mogą to wykorzystać już dziś:
Obsługa klienta w e-commerce. Sklep internetowy z 500 zamówieniami miesięcznie może stworzyć agenta, który odpowiada na 80% powtarzalnych pytań: "gdzie moja paczka", "jak zwrócić towar", "czy macie rozmiar X". Dzięki testom w Skill Creator właściciel sam sprawdza, czy agent nie myli procedury zwrotu z reklamacją. Bez programisty.
Wewnętrzny asystent wiedzy. Firma produkcyjna z 50 pracownikami może zbudować agenta, który zna regulamin pracy, procedury BHP i harmonogram zmian. Testy pokażą, czy agent poprawnie interpretuje pytania w różnych wariantach ("kiedy mam urlop" vs "ile dni wolnych mi zostało" vs "chcę wziąć wolne w piątek").
Kwalifikacja leadów. Mała agencja marketingowa może stworzyć agenta, który wstępnie ocenia zapytania od potencjalnych klientów. Testy pozwalają sprawdzić, czy agent poprawnie rozróżnia klienta z budżetem 5 000 zł od klienta z budżetem 50 000 zł na podstawie opisu projektu.
Jak zacząć - krok po kroku
Nie potrzebujesz konta deweloperskiego ani klucza API. Wystarczy standardowe konto Claude Pro (20 USD miesięcznie) lub Team (30 USD za osobę).
Krok 1: Wejdź w Skill Creator i opisz, co Twój agent ma robić. Bądź konkretny - zamiast "pomagaj klientom", napisz "odpowiadaj na pytania o czas dostawy zamówień w sklepie X, korzystając z tabeli statusów zamówień".
Krok 2: Pozwól Claude wygenerować testy. Przejrzyj je - usuń te, które nie pasują do Twojej sytuacji, dodaj własne przypadki brzegowe. Szczególnie ważne: dodaj testy na sytuacje, gdy agent NIE powinien odpowiadać (np. pytania o dane osobowe innych klientów).
Krok 3: Uruchom testy i przeczytaj wyniki. Jeśli wynik jest poniżej 80%, popraw opis umiejętności - dodaj przykłady, doprecyzuj instrukcje, wyklucz zachowania, których nie chcesz.
Krok 4: Powtarzaj cykl. Każda iteracja powinna trwać 5-15 minut. Po 3-4 rundach zazwyczaj osiągasz stabilny wynik powyżej 90%.
Ważna uwaga: testy w Skill Creator sprawdzają jakość odpowiedzi agenta, ale nie zastępują testowania na prawdziwych użytkownikach. Traktuj je jako pierwszy filtr - wyeliminuj oczywiste błędy, zanim agent trafi do klientów.
Ograniczenia, o których warto wiedzieć
Narzędzie nie jest idealne i uczciwie trzeba powiedzieć o kilku rzeczach:
- Tylko w ekosystemie Claude - jeśli Twój agent działa na GPT-4 lub Gemini, te narzędzia Ci nie pomogą. To zamknięty ekosystem Anthropic.
- Język testów - automatycznie generowane testy czasem mają problem z polską odmianą i kontekstem. Warto ręcznie poprawiać scenariusze, żeby odzwierciedlały rzeczywiste pytania polskich klientów.
- Brak integracji z zewnętrznymi danymi - Skill Creator testuje logikę odpowiedzi, ale nie połączenie z Twoim CRM czy bazą zamówień. Do tego nadal potrzebujesz API lub narzędzi typu n8n/Make.
- Koszt tokenów - każdy test to zużycie tokenów. Przy intensywnym testowaniu (100+ scenariuszy dziennie) możesz odczuć to na fakturze.
Mimo tych ograniczeń, stosunek korzyści do nakładu pracy jest bardzo korzystny. Firma, która wcześniej potrzebowała 2-3 dni pracy programisty na przygotowanie środowiska testowego, teraz robi to sama w godzinę.
Co to oznacza dla rynku
Anthropic wyraźnie idzie w kierunku demokratyzacji narzędzi AI. Claude z Skill Creatorem przestaje być "kolejnym chatbotem" i staje się platformą do budowy agentów biznesowych. Podobny trend widać u konkurencji - OpenAI z GPTs, Google z Vertex AI Agent Builder - ale Claude jako pierwszy dał narzędzia testowe bez kodu.
Dla polskich firm to sygnał: bariera wejścia w automatyzację opartą na AI spada z każdym miesiącem. Firmy, które zaczną teraz budować i testować prostych agentów, będą miały przewagę za 12 miesięcy, gdy ich konkurenci dopiero zaczną się rozglądać.
Praktyczna rada na koniec: zacznij od jednego procesu, który Cię najbardziej boli. Najczęściej to obsługa powtarzalnych pytań od klientów lub wewnętrzna baza wiedzy. Zbuduj agenta, przetestuj go narzędziami Claude i wdrażaj stopniowo. Lepiej mieć jednego dobrze przetestowanego agenta niż pięć, które "jakoś działają".
Źródło: Improving Skill Creator: test, measure, and refine agent skills - Claude Blog