BlogArtykułyNarzędziaWdrożeniaPraca w AINauka AIGiełda AICennikKontakt

Google wydał aplikację do dyktowania bez internetu. Jak to zmieni pracę polskich firm?

Google uruchomił aplikację do dyktowania z sztuczną inteligencją, która działa bez dostępu do internetu. To może być zmiana dla polskich firm, które chcą przyspieszyć pracę i zmniejszyć zależność od chmury.

Przez lata dyktowanie głosowe na telefonie czy komputerze wyglądało mniej więcej tak samo - mówisz do mikrofonu, dźwięk leci na serwer w chmurze, wraca jako tekst. Czasem szybko, czasem z opóźnieniem, a czasem wcale - bo internet w magazynie, na budowie albo w piwnicznym biurze to wciąż luksus, nie standard. Google właśnie wypuścił aplikację, która zmienia te zasady gry.

Nowa aplikacja do dyktowania od Google działa w pełni offline, wykorzystując model językowy Gemma uruchamiany bezpośrednio na urządzeniu. Nie potrzebuje połączenia z internetem, nie wysyła nagrań na zewnętrzne serwery, a mimo to radzi sobie z rozpoznawaniem mowy na poziomie, który jeszcze dwa lata temu wymagał potężnej infrastruktury chmurowej. Na razie dostępna jest na iOS, ale sygnał jest jasny - era lokalnego AI na urządzeniach mobilnych właśnie się zaczyna.

Dla polskich małych i średnich firm to nie jest kolejna ciekawostka technologiczna do przeczytania i zapomnienia. To narzędzie, które może realnie zmienić sposób, w jaki dokumentujemy pracę, tworzymy notatki, przygotowujemy raporty i komunikujemy się z klientami. Przyjrzyjmy się, co to oznacza w praktyce.

Dyktowanie offline - dlaczego to ma znaczenie dla polskich firm?

Zacznijmy od oczywistego problemu: zasięg internetu w Polsce nie jest tak równomierny, jak sugerują mapy operatorów. Według danych GUS z 2024 roku, około 11% polskich firm z sektora MŚP wskazuje niestabilny dostęp do internetu jako barierę w korzystaniu z narzędzi cyfrowych. To nie dotyczy tylko firm z małych miejscowości - wystarczy wjechać windą do podziemnego magazynu w Warszawie albo wejść na halę produkcyjną z metalową konstrukcją, żeby stracić połączenie.

Dotychczasowe rozwiązania do dyktowania - wbudowane w iOS (Siri), Androida (Gboard) czy dostępne przez aplikacje takie jak Otter.ai - działały przyzwoicie, ale wymagały stałego połączenia z chmurą, przynajmniej w trybie zaawansowanego rozpoznawania. Tryby offline istniały, ale ich jakość była zauważalnie gorsza, szczególnie dla języka polskiego z jego odmianami, przypadkami i złożoną składnią.

Aplikacja Google zmienia tę dynamikę, bo wykorzystuje model Gemma - lekki, ale wydajny model językowy zaprojektowany do działania na urządzeniach o ograniczonych zasobach. To ten sam model, który Google udostępnił jako open source na początku 2024 roku, ale teraz zoptymalizowany pod kątem rozpoznawania mowy w czasie rzeczywistym. Nie potrzebujesz do tego najnowszego iPhone'a - aplikacja działa na urządzeniach z chipem A14 i nowszym, czyli na telefonach dostępnych na rynku od 2020 roku.

Konkretne zastosowania: kto na tym skorzysta najbardziej?

Pomyślmy o tym przez pryzmat codziennej pracy w polskiej firmie. Nie abstrakcyjnie, ale bardzo konkretnie.

Firmy budowlane i remontowe. Kierownik budowy, który codziennie musi dokumentować postęp prac, problemy, dostawy materiałów. Dziś albo pisze to ręcznie na kartce (i przepisuje wieczorem), albo próbuje dyktować na telefon - co na placu budowy z kiepskim zasięgiem kończy się frustracją. Z offline'owym dyktowaniem może po prostu mówić do telefonu po każdej inspekcji. Tekst jest gotowy natychmiast, bez czekania na odpowiedź serwera. Według badań McKinsey z 2023 roku, pracownicy w branży budowlanej tracą średnio 5,5 godziny tygodniowo na dokumentację - dyktowanie może skrócić ten czas nawet o 60%.

Przedstawiciele handlowi. Wyobraź sobie handlowca, który odwiedza 8-10 klientów dziennie. Po każdej wizycie powinien wpisać notatkę do CRM-a - co ustalono, jakie produkty interesują klienta, kiedy następny kontakt. W praktyce większość handlowców odkłada to na koniec dnia i pisze z pamięci, tracąc szczegóły. Z dyktowaniem offline wystarczy 30 sekund w samochodzie między wizytami. Nawet jeśli parking jest w podziemiu bez zasięgu.

Lekarze i specjaliści prowadzący prywatne praktyki. Dokumentacja medyczna to zmora polskiej służby zdrowia. Lekarz w małym gabinecie spędza często więcej czasu na wpisywaniu danych do systemu niż na rozmowie z pacjentem. Dyktowanie offline pozwala nagrać opis wizyty natychmiast po wyjściu pacjenta, bez obawy o przesyłanie wrażliwych danych medycznych przez internet. Ten aspekt prywatności jest tu nie do przecenienia - wrócę do niego za chwilę.

Jednoosobowe działalności i freelancerzy. Copywriterzy, tłumacze, konsultanci - osoby, które produkują dużo tekstu. Dyktowanie jest statystycznie 3-4 razy szybsze niż pisanie na klawiaturze (badania Stanford z 2017 roku wskazują na współczynnik 3,0x dla języka angielskiego; dla polskiego z dłuższymi słowami może być nawet wyższy). Jeśli piszesz 2000 słów dziennie, przejście na dyktowanie może zaoszczędzić ci godzinę pracy każdego dnia.

Prywatność danych - cichy argument, który może przeważyć

Jest jeden aspekt tej aplikacji, o którym mówi się mniej, a który dla polskich firm może być decydujący: dane nie opuszczają urządzenia.

Od czasu wejścia w życie RODO w 2018 roku polskie firmy muszą uważać na to, gdzie trafiają dane osobowe. Dyktowanie w chmurze oznacza, że nagranie głosu - potencjalnie zawierające imiona klientów, numery zamówień, dane medyczne czy szczegóły kontraktów - jest przesyłane na serwery zewnętrznej firmy. Nawet jeśli Google deklaruje, że nie przechowuje tych nagrań na stałe, sam fakt transmisji może stanowić problem z perspektywy RODO, szczególnie po wyroku Schrems II dotyczącym transferu danych do USA.

Aplikacja działająca offline eliminuje ten problem u źródła. Głos jest przetwarzany na telefonie, tekst zostaje na telefonie, żadne dane nie są transmitowane. Dla firm, które przetwarzają dane wrażliwe - kancelarie prawne, biura rachunkowe, gabinety medyczne - to może być argument, który sam w sobie uzasadnia wdrożenie takiego narzędzia.

Trzeba jednak uczciwie powiedzieć, że na dzień dzisiejszy nie mamy jeszcze pełnej informacji o tym, jak dokładnie aplikacja radzi sobie z językiem polskim. Google nie opublikował benchmarków dla poszczególnych języków, a Gemma była trenowana głównie na danych anglojęzycznych. Wersja offline może mieć ograniczenia w rozpoznawaniu specjalistycznego słownictwa branżowego, nazw własnych czy regionalizów. To jest realne ograniczenie, które trzeba wziąć pod uwagę przed podjęciem decyzji o wdrożeniu w firmie.

Jak przygotować się na tę zmianę - praktyczne kroki

Nie musisz czekać, aż aplikacja Google będzie idealna dla polskiego rynku. Możesz zacząć przygotowywać swoją firmę już teraz, bo trend przetwarzania AI na urządzeniu (tzw. on-device AI) będzie tylko przyspieszał. Apple z Apple Intelligence, Samsung z Galaxy AI, a teraz Google z Gemma offline - wszyscy wielcy gracze idą w tym kierunku.

Krok 1: Zidentyfikuj procesy, w których dyktowanie ma sens. Przejdź przez typowy tydzień pracy i policz, ile czasu Ty i Twoi pracownicy spędzacie na wpisywaniu tekstu, który mógłby być podyktowany. Notatki ze spotkań, opisy zadań, e-maile, raporty, wpisy do systemów. Jeśli sumarycznie wychodzi więcej niż 5 godzin tygodniowo na osobę - masz realny potencjał do optymalizacji.

Krok 2: Przetestuj obecne narzędzia. Zanim pojawi się pełna polska wersja aplikacji Google, sprawdź co już działa. Wbudowane dyktowanie w iOS (przytrzymaj ikonę mikrofonu na klawiaturze) i Androidzie poprawiło się znacząco w ostatnich dwóch latach. Whisper od OpenAI, dostępny przez aplikacje takie jak Whisper Transcription, obsługuje język polski z dokładnością powyżej 90% nawet dla skomplikowanych zdań. Narzędzie to wymaga jednak połączenia z internetem w większości implementacji mobilnych.

Krok 3: Ustal standardy dyktowania. Dyktowanie wymaga pewnej dyscypliny. Warto wypracować nawyki: mówienie pełnymi zdaniami, dyktowanie znaków interpunkcyjnych ("kropka", "przecinek", "nowy akapit"), unikanie przerw w środku myśli. Brzmi banalnie, ale firmy, które wdrożyły dyktowanie bez przeszkolenia pracowników, często rezygnowały po tygodniu, bo jakość tekstu była niska - nie z winy narzędzia, ale z powodu chaotycznego sposobu mówienia.

Krok 4: Pomyśl o integracji z istniejącymi systemami. Sam tekst podyktowany do telefonu to dopiero początek. Prawdziwa wartość pojawia się, gdy ten tekst automatycznie trafia do odpowiedniego systemu - CRM-a, programu do zarządzania projektami, systemu dokumentacji. Narzędzia takie jak Make (dawniej Integromat) czy Zapier pozwalają zbudować takie obiegi pracy bez programowania. Na przykład: podyktowana notatka zapisuje się w Google Docs, a stamtąd automatycznie trafia jako zadanie do Asany z odpowiednim tagiem i przypisaniem do osoby.

Co to oznacza w szerszym kontekście?

Wypuszczenie przez Google offline'owej aplikacji do dyktowania to nie jest izolowane wydarzenie. To element większego trendu, który zmieni sposób, w jaki małe firmy korzystają z AI w ciągu najbliższych 2-3 lat.

Do tej pory sztuczna inteligencja w biznesie oznaczała przede wszystkim chmurę - ChatGPT, Claude, Midjourney, wszystko działało na odległych serwerach. To tworzyło trzy bariery: koszt (subskrypcje), zależność od internetu i obawy o prywatność danych. Modele takie jak Gemma, Llama od Meta czy Phi od Microsoftu stopniowo likwidują te bariery, przenosząc inteligencję na urządzenia, które już masz w kieszeni.

Dla polskich firm z sektora MŚP to dobra wiadomość. Nie musisz inwestować w infrastrukturę chmurową, nie musisz płacić za drogie subskrypcje enterprise, nie musisz martwić się o transfer danych za ocean. Wystarczy telefon, który prawdopodobnie już masz, i aplikacja, która jest darmowa.

Oczywiście, dyktowanie to dopiero wierzchołek góry lodowej. Jeśli model AI może działać offline na telefonie i rozpoznawać mowę, to następny krok to tłumaczenie w czasie rzeczywistym, podsumowywanie dokumentów, generowanie odpowiedzi na e-maile - wszystko bez internetu. Apple już pokazał fragmenty tej wizji z Apple Intelligence, Google odpowiada swoją implementacją. W ciągu dwóch lat możemy mieć w kieszeni asystenta AI, który działa wszędzie - na budowie, w magazynie, w terenie, w pociągu między Poznaniem a Wrocławiem, gdzie zasięg LTE wciąż potrafi znikać na kilkanaście minut.

Firmy, które już teraz zaczną eksperymentować z dyktowaniem i lokalnymi narzędziami AI, będą miały przewagę. Nie dlatego, że samo dyktowanie jest rewolucyjne, ale dlatego, że nauczą się integrować AI z codziennymi procesami. A ta umiejętność - budowania obiegów pracy z AI - będzie w najbliższych latach jedną z najcenniejszych kompetencji w polskim biznesie.

Źródło: TechCrunch - Google quietly releases an offline-first AI dictation app on iOS

Najczesciej zadawane pytania

PR

Paweł Reutt

Przedsiębiorca i praktyk AI. Prowadzi 4 firmy zarządzane z pomocą systemów AI. Autor innowacje.ai — bloga o sztucznej inteligencji dla polskich firm.

Wdrożenie AI w Twojej firmie?

Audyt procesów, dobór narzędzi, automatyzacja — od strategii po wdrożenie.

Pakiet Starter od 1 499 zł
Umów konsultację →

Nie przegap nastepnego artykulu

Dołacz do newslettera — AI dla firm, bez buzzwordow.