Nothing - producent znany z transparentnych smartfonów - wprowadził funkcję dyktowania wspieraną AI z obsługą ponad 100 języków, w tym polskiego. Całość działa on-device, czyli bezpośrednio na urządzeniu, bez wysyłania nagrań do chmury. To wydaje się szczegółem technicznym, ale dla polskich firm zmienia praktyczne reguły gry przy dokumentowaniu spotkań, notatkach z budów czy szybkich raportach handlowców.
Przez ostatnie dwa lata obserwuję, jak polskie zespoły walczą z dwoma problemami naraz: brakuje czasu na pisanie maili i raportów, a równocześnie rośnie strach przed wysyłaniem danych klientów do amerykańskich chmur. RODO, NIS2, audyty bankowe - każdy compliance officer w Polsce ma listę zakazów dotyczących "wrzucania danych do ChatGPT". Dyktowanie on-device przecina ten węzeł: szybkość AI bez ryzyka wycieku.
W mojej praktyce konsultingowej widzę handlowca, który po spotkaniu z klientem dyktuje notatkę przez 90 sekund w aucie, zamiast pisać 15 minut przy laptopie wieczorem. To różnica 14 minut razy 4 spotkania dziennie razy 20 dni - prawie 19 godzin miesięcznie odzyskanych dla jednej osoby. Skalując to na 10-osobowy dział sprzedaży, mówimy o etacie odzyskanym z samego procesu notowania.
Dlaczego on-device to przełom dla polskich firm
Większość narzędzi do transkrypcji - Otter, Fireflies, Read.ai, nawet Microsoft Copilot - przetwarza nagrania w chmurze providera. Dla polskich firm w branżach regulowanych (kancelarie, szpitale, banki, ubezpieczenia) to często blokada z poziomu działu prawnego. Mam klienta, kancelarię z Warszawy, która rok temu wypisała się z Otter.ai właśnie po audycie bezpieczeństwa - rozmowy z klientami nie mogły opuszczać infrastruktury kontrolowanej przez kancelarię.
Dyktowanie on-device oznacza, że model językowy działa lokalnie na chipie urządzenia (Nothing wykorzystuje do tego Qualcomm Snapdragon). Audio nigdy nie opuszcza telefonu. Z perspektywy RODO to jakościowo inna sytuacja niż wysyłanie danych do amerykańskiego dostawcy - nie ma transferu poza EOG, nie ma DPA do podpisywania, nie ma ryzyka subpoena ze strony amerykańskich służb (problem, który wrócił po unieważnieniu Privacy Shield).
Drugi atut to niezależność od internetu. W realiach polskich budów, fabryk czy magazynów - gdzie zasięg LTE bywa kapryśny - lokalne przetwarzanie po prostu działa. Brygadzista Panel Montage dyktujący raport z budowy w Belgii nie musi się martwić, czy zdąży załadować nagranie przed wjazdem do tunelu.
Konkretne zastosowania w polskich firmach MŚP
Przejdźmy od teorii do praktyki. Oto cztery scenariusze, które sam wdrażałem lub konsultowałem w ostatnich miesiącach:
- Handlowcy B2B - dyktowanie notatek po spotkaniu bezpośrednio do CRM (Pipedrive, HubSpot, Salesforce). Kluczowe pole: następny krok i data follow-upu. W jednej firmie dystrybucyjnej zwiększyło to wskaźnik wprowadzania notatek z 40% do 91% spotkań.
- Brygady budowlane - raporty dzienne z placu budowy zamiast wieczornych emaili. Foreman dyktuje status, problemy, potrzebne materiały - system parsuje to do strukturalnego raportu. Skraca pętlę informacji z 24 godzin do 2 godzin.
- Lekarze i fizjoterapeuci - dyktowanie notatek pacjenta między wizytami. Kluczowe: on-device eliminuje problem z RODO przy danych medycznych. Znam gabinet stomatologiczny w Trójmieście, który wdrożył podobne rozwiązanie i odzyskał 90 minut dziennie na pacjenta.
- Konsultanci i prawnicy - szybkie podsumowania rozmów telefonicznych z klientami, notatki do akt, drafty pism. Wymaga to dodatkowej warstwy - parsowania dyktowania do struktury - ale lokalne LLM-y typu Llama 3 czy Mistral robią to coraz lepiej.
Co istotne, dyktowanie AI to nie to samo, co transkrypcja. Stare narzędzia (Dragon NaturallySpeaking, Windows Speech) zamieniały słowa na tekst dosłownie. Nowe narzędzia AI rozumieją kontekst, poprawiają interpunkcję, formatują listy, rozpoznają polecenia ("nowy akapit", "wyślij do Anny"). To jakościowa różnica, którą trzeba samemu przetestować, żeby docenić.
Ograniczenia, o których nikt nie mówi
Trzymając się zasady transparentności - dyktowanie AI ma realne wady, które warto znać przed wdrożeniem. Po pierwsze, jakość polskiego rozpoznawania mowy jest dobra, ale nie idealna. W moich testach Whisper od OpenAI (model large-v3) ma około 4-6% WER (word error rate) na polskim, podczas gdy angielski to 2-3%. Modele on-device są jeszcze słabsze - typowo 7-10% WER. To oznacza, że co dziesiąte słowo trzeba poprawić, szczególnie nazwiska, nazwy firm, branżową terminologię.
Po drugie, akcenty i gwary. Mam klienta z Podhala, którego zespół mówi z mocnym akcentem góralskim - tam żaden model nie radzi sobie dobrze. Podobnie z dialektami śląskimi czy kaszubskimi. Dla zespołów w Warszawie czy Krakowie problem jest mniejszy, ale realny.
Po trzecie, hałas tła. Plac budowy z młotem pneumatycznym, restauracja w godzinach lunchu, otwarty open space - wszystko to drastycznie obniża jakość. Praktyczne rozwiązanie: zewnętrzny mikrofon krawatowy (lavalier) za 200-300 złotych poprawia wyniki o 30-40%.
Po czwarte, wyzwanie kulturowe. Polscy pracownicy w wieku 45+ często mają opór psychologiczny przed dyktowaniem - wydaje im się to "niepoważne" w porównaniu z pisaniem. To kwestia change managementu, nie technologii. W mojej praktyce 2-tygodniowy okres adaptacji wystarczy, żeby przekonać większość zespołu, ale wymaga to zaangażowania menedżera.
Jak zacząć - praktyczne kroki dla polskiej firmy
Jeśli rozważasz wdrożenie dyktowania AI w swojej firmie, oto kolejność, którą sam stosuję u klientów. Krok pierwszy: zacznij od jednej osoby, najlepiej naturalnego entuzjasty technologii. Daj mu dwa tygodnie na eksperymenty z różnymi narzędziami - Apple Voice Control, Google Gboard z dyktowaniem, Whisper przez aplikacje typu MacWhisper, AudioPen, ewentualnie Nothing po wprowadzeniu funkcji w Polsce.
Krok drugi: zmierz konkretną metrykę przed i po. Może to być czas spędzony na pisaniu raportów, liczba notatek wprowadzonych do CRM, opóźnienie między rozmową z klientem a follow-upem. Bez liczb to tylko subiektywne wrażenia.
Krok trzeci: zdecyduj o polityce danych. Dla danych wrażliwych (medycznych, prawnych, finansowych) - tylko on-device. Dla rutynowych notatek wewnętrznych - chmura jest OK, jeśli masz podpisane DPA. Spisz to w polityce bezpieczeństwa, żeby nie było wątpliwości.
Krok czwarty: integracje. Dyktowanie samo w sobie daje 30% wartości - prawdziwy zysk pojawia się, gdy podłączysz to do CRM, bazy projektów, kalendarza. Tu pomocne są narzędzia typu Make.com, n8n, Zapier - łączą dyktowanie z resztą obiegu pracy.
Wprowadzenie Nothing to nie rewolucja, ale ważny sygnał kierunku - producenci sprzętu wbudowują AI w urządzenia tak, że staje się ona niewidoczna dla użytkownika. Za rok-dwa dyktowanie AI w polskich firmach będzie tak oczywiste, jak dziś jest sprawdzanie maila na telefonie. Pytanie nie brzmi "czy", tylko "kiedy" i "kto pierwszy w branży to wykorzysta dla przewagi".