Apki to pułapki 4 – mikrofony

Przerobiony kadr z plakatu filmu. W centrum spokojnie stoi mężczyzna w garniturze. Ma długie włosy, poważną minę, lekki zarost i poranioną po bokach twarz. Otacza go półkole kilkunastu wycelowanych w niego pistoletów. Tylko że w ramach przeróbki nałożono na ich lufy różnego rodzaju mikrofony.

Źródło: plakat filmu John Wick 2. Przeróbki moje.

występ zarejestrowali na sześciuset aparatach powtykanymi w instrumenty mikromikrofonikami, a do bębna włożono mi makromikrofon, (…) przez lupy obejrzeli nas i każdy kąt, a potem naradzali się siedem dni i jeszcze miesiąc. Precyzji analiz nie wysłowisz!

Stanisław Lem, „Cyberiada” (rozdział o Harmonii Sfer).

Co by powiedziała losowa osoba, gdyby ją zapytać, jak wyobraża sobie śledzenie i naruszanie prywatności? Obstawiam, że padłoby słowo „podsłuch”. Albo „nagrywanie”.

Te słowa dość mocno działają na wyobraźnię, a przy tym nie wydają się czymś odległym i abstrakcyjnym. O podsłuchach słyszymy w wiadomościach. Zazdrośni małżonkowie mogą je kupić w sklepach. Na korpogrupach ludzie sobie czasem doradzają, żeby zbierać dowody ukrytym dyktafonem.

Nie powinno nas zatem dziwić, że te same wyobrażenia na temat metod śledzenia przeniesiono do świata elektroniki konsumenckiej.

Czasem te obawy są uzasadnione, zwłaszcza gdy mówimy o śledzeniu konkretnej ofiary. Ale powstało też trochę mitów, niesłusznie przeceniających rolę mikrofonów w cyfrowym świecie. W którym zbieraczami naszych danych są giganci reklamowi.

Ten wpis rozprawi się z takim popularnym przekonaniem – o tym, że aplikacje od Facebooka (zwanego teraz Meta) nas podsłuchują. Wnioski będą na tyle ogólne, że śmiało można je odnieść do innych firm i programów.

Mój kolejny wpis na temat mikrofonów przybliży natomiast te bardziej rzeczywiste zagrożenia z ich strony. Bez obaw, są ciekawsze niż proste podsłuchiwanie

Podsłuchujący Facebook – wprowadzenie

Nieraz zdarzało się, że ludzie rozmawiali ze sobą o swoich planach albo rzeczach, jakie by się im przydały. Po czym po uruchomieniu którejś z aplikacji od firmy Meta (jak Facebook, Messenger czy Instagram) jedna z osób widziała reklamę tej samej rzeczy, której dotyczyła rozmowa.

Wniosek, który pozwolę sobie nazywać teorią podsłuchu – „Facebook mnie podsłuchuje”. Znajdziemy na świecie tysiące takich historii.

Problem w tym, że prawie na pewno nie podsłuchuje. Ani on, ani inne wielkie firmy.

I nie mówię tutaj, że są godne zaufania. Kto czyta bloga, ten zna moją niechęć do cybergigantów, a sam Facebook przewinień ma wiele.
Nie twierdzę też, że osoby widzące niepokojąco trafne reklamy coś sobie zmyśliły. Bo wiarygodnych historii o stalkerskich reklamach jest pełno.

Ale, jak zaraz zobaczymy, jest sporo argumentów przeciw istnieniu tej konkretnej złej trójcy Facebook-reklamy-mikrofon. Od kwestii prawnych po techniczne. Istnieją też wiarygodne, alternatywne wyjaśnienia fenomenu dopasowanych reklam.

W tym wpisie opieram się na własnych przemyśleniach, a także innych źródłach, jak artykuł naukowy ze Springera, w którym dwóch niemieckich badaczy dość wszechstronnie analizuje sprawę.

Mały praktyczny eksperyment

Historie o podsłuchiwaniu często sprowadzają się do „rozmawialiśmy o czymś, nie używaliśmy telefonów, a jednak potem pokazało bardzo trafne reklamy”.

Załóżmy na chwilę, że faktycznie ma miejsce słuchanie naszych rozmów. Ale, o ile nie jesteśmy kompletnymi nałogowcami, nasz telefon najczęściej ma zablokowany ekran i spoczywa w naszej kieszeni albo na jakimś stoliku.

Czy nagrywanie w takiej sytuacji jest w ogóle możliwe?

Żeby osobiście przetestować mikrofon na swoim telefonie (Huawei, system Android 10), skorzystałem z niezrównanej aplikacji Termux wraz z rozszerzeniem Termux:API (więcej o jej instalacji możecie poczytać w osobnym samouczku).

Następnie użyłem komendy pozwalającej nagrywać dźwięk prosto do pliku – termux-microphone-record -f mictest (dokładniejszy opis).
Po włączeniu nagrywania:

powiedziałem parę słów;
nacisnąłem ikonkę domu, żeby przejść do ekranu głównego (i znów parę słów);
nacisnąłem przycisk z boku telefonu, żeby włączyć blokadę ekranu i go wygasić (po czym parę słów);
włączyłem ekran (parę słów);
wprowadziłem kombinację odblokowującą telefon (parę słów);
otwarłem Termuksa i przerwałem nagrywanie
(komendą termux-microphone-record -q).

Zajrzałem do otrzymanego pliku. Po cichu miałem nadzieję, że na którymś z etapów przestało nagrywać. Ale nie, nagrały się wszystkie moje wypowiedzi. Również ta przy wyłączonym i zablokowanym ekranie.
Niestety potwierdził się najbardziej niekorzystny wariant – aplikacje jak najbardziej mogą słuchać, również z wnętrza naszej kieszeni. Skoro Termux może, to inne też.

Jest całkiem możliwe, że takie nagrywanie może trwać tylko przez pewien czas; że gdybym poczekał dłużej po zablokowaniu ekranu, to by je samoistnie przerwało. Gdzieś mi mignęła informacja, że apka jest w stanie jedynie kontynuować nagrywanie w tle, ale nie jest w stanie go włączyć w tym trybie.

Ale czy to ma nas pocieszyć?
Wystarczyłoby, żeby jakaś osoba zerknęła na uzależniającą apkę (jak to robi co kilka minut). Apka wtedy włącza nagrywanie. Osoba, odkładając telefon do kieszeni, wraca do przerwanej rozmowy i mówi na głos jakąś tajemnicę. Apka by ją nagrała.

Na szczęście sama techniczna możliwość to dopiero początek. Spójrzmy na inne aspekty, które mimo wszystko przemawiają na niekorzyść teorii podsłuchu.

Argumenty przeciw teorii podsłuchu

Kwestia (braku) opłacalności

Od możliwości do czynów jest daleka droga. Zastanówmy się, czy podejrzani w tej sprawie – megakorpo od produktów cyfrowych – mieliby motyw. Czy podsłuchiwanie w ogóle by się im opłacało?

Pierwsza myśl: „Oczywiście! Przecież poznaliby nasze największe sekrety”.

Tylko że Facebook czy Google, szczególnie znani ze wścibstwa, są firmami zarabiającymi na reklamach. Liczą się dla nich informacje, które sugerowałyby nasze zainteresowania, styl życia, skłonność do wydatków. Żeby na tej podstawie mogli podsuwać cudze produkty i zyskiwać nasze kliknięcia.

Rozmowy z życia codziennego niekoniecznie by im to dały. Bezcenne marketingowo „jestem w ciąży” albo „chcę wyjechać do ciepłych krajów” toną w morzu prozy życia:

domowych „zjemy coś na kolację?”, „jak było w pracy?”;
zawodowych „musimy opracować ten raport do poniedziałku”, „kończę na dziś, na razie!”;
miejskich „można uchylić okno?”, „zapłacę kartą”.

A w czasach coraz rzadszych rozmów międzyludzkich podsłuch mógłby wyłapać po prostu ciszę i dźwięki tła

Podsumowując: w przypadku nagrywania całych dni z życia stosunek bzdetów do cennych (reklamowo) treści mógłby być dość niekorzystny dla firm. Nie mam twardych danych, ale bardzo mocne przeczucie.

Kwestia opłacalnych alternatyw

Dane dźwiękowe są bardzo upierdliwe. Jeśli chodzi o poziom trudności pozyskiwania różnych informacji (z punktu widzenia Facebooka), to streściłbym to tak:

Ustalenie, że odwiedziliśmy jakąś stronkę albo grupę na Facebooku? Banalnie łatwe.

Chodząc po stronkach, cały czas nosimy ze sobą swoistą „wizytówkę” z danych. Facebook wie, że my to my.
Zaś odwiedzane przez nas profile są już pewnie oznaczone w ich bazie, jako np. fani motoryzacji. Kiedy nasza wizytówka pojawi się w takim miejscu, to od razu trafimy do odpowiedniej szufladki.
Ustalenie, że odwiedziliśmy stronkę poza Facebookiem? To zależy.

Jeśli stronka zawiera elementy od samego Facebooka – banalnie łatwe. Jeśli kliknęliśmy w link na samym Facebooku albo w którejś z ich aplikacji? Też możliwe. W innych wypadkach trudne albo niemożliwe.
Analizowanie wiadomości, jakie piszemy na Messengerze? Średnio trudne.

Problemem byłaby odporność na literówki, odsiewanie ironii, łapanie kontekstu. Napisane z rezygnacją „Ech, fajnie byłoby dupnąć tym wszystkim i jechać w Bieszczady :p” to niekoniecznie znak, że czas reklamować pensjonaty.

Ale gdyby Facebook nie przejmował się niedokładnością i po prostu wychwytywał pewne zbitki słów? Wtedy analiza byłaby znacznie łatwiejsza.
Analiza nagrań głosowych? Bardzo trudna.

Najpierw trzeba zamienić dźwięk na tekst, co samo w sobie jest wymagające i podatne na błędy. Masa różnych akcentów, slang, szumy w tle i tak dalej.
A potem trzeba ten tekst jeszcze przeanalizować, pokonując wszystkie trudności z punktu wyżej.

Ciekawostka

Pamiętajmy też, że łatwo oceniać skuteczność rozpoznawania mowy według dzisiejszych standardów. A przecież oskarżenia wobec Facebooka sięgają dużo dawniejszych lat.
To, co szumnie nazywa się teraz sztuczną inteligencją, miało wtedy znacznie gorszą jakość. Do tego stopnia, że śmieszkowanie z tego przeszło do mainstreamu.
Znajdziemy je choćby w serialu „Krzyk” od MTV i Netflixa, wydanym w 2015 roku. Jest tam przykład nieudanego wybierania głosem numeru na policję

Kwestia ryzyka

Prezes Facebooka, Mark Zuckerberg, podczas zeznawania przed komisją senacką został wprost zapytany: „Czy Facebook nas nagrywa?”.
Odpowiedział że nie. Potem rozwinął temat i dodał, że Facebook prosi o pozwolenie na nagrywanie tylko wtedy, kiedy chcemy bezpośrednio z aplikacji nagrywać filmy z dźwiękiem.

I tak, wiem. „Lisek-chytrusek powiedział, że to nie on. A tak naprawdę to był on”. Tylko że tutaj naprawdę ryzyko byłoby zbyt wielkie.

Bo pomyślmy tylko, co mógłby nagrać taki telefon (który przecież nie wie, że jest w jakimś tajnym miejscu i nagrywać nie powinien). Tajemnice adwokackie. Tajemnice przedsiębiorstw. Poufne rozmowy polityków.

Jak zaraz zobaczymy, dość łatwo byłoby wykryć przypadki nagrywania. Wystarczyłaby jedna wpadka, głodny sławy badacz cyberbezpieczeństwa, żeby zebrać dowody przeciw Facebookowi.
A potwierdzenie takiej afery oznaczałoby dla nich koniec. Zarzuty karne, kompletne zrujnowanie reputacji. I to wszystko po to, żeby używać jednej z najbardziej okrężnych i żmudnych metod zbierania danych? Powątpiewam

Niektórzy mogliby w tym miejscu przypomnieć, że dokumenty ujawnione przez Edwarda Snowdena pokazały, że Facebook ściśle współpracował z amerykańskimi agencjami. Zatem, mając takie powiązania, być może mógłby olać ryzyko i robić swoje?

Tylko że masowe nagrywanie łatwo wykryć. Wykrycie prowadziłoby do odpływu użytkowników. A to do zmniejszenia skali śledzenia.
Gdybym był jakimś NSA, to wolałbym się trzymać rzeczy bardziej przyziemnych, zadowolić się dostępem do danych tekstowych. Zachłanność i naciskanie na globalny podsłuch mogłyby spalić cały projekt.

Kwestia wykrywalności

To, że zainstalujemy u siebie jakąś aplikację, nie oznacza jeszcze, że może ona tak po prostu robić na naszych telefonach co chce. Jest tylko gościem i może co najwyżej prosić system o pewne rzeczy.

Przypomnę tutaj piramidkę obrazującą warstwy naszego urządzenia, stworzoną na potrzeby serii „Apki to pułapki”:

Źródło: Flaticon, Emojipedia, Wikimedia Commons (szczegóły pod koniec wpisu).
Aranżacja i przeróbki moje. Przypominam: pojęcie jądra systemu luźne, nie do końca odpowiada formalnej definicji.

Rzeczy położone wyżej są w pełni zależne od tych położonych niżej.

Jeśli jesteśmy szeregowymi użytkownikami, to nie sięgamy zwykle poniżej warstwy System operacyjny. Ale istnieją różni hobbyści, majsterkowicze, amatorscy i zawodowi badacze cyfrowej prywatności.

Takie osoby mogłyby podporządkować sobie niższe warstwy telefonu. Umieścić tam cyfrowe odpowiedniki czujników.
„Informuj mnie za każdym razem, kiedy nastąpi przepływ danych między apką a mikrofonem”.

Aplikacje nie miałyby pojęcia o istnieniu tego rodzaju czujników – bo są w wyższych warstwach. Nawet jeśli zapytają dolnych warstw, to te po prostu mogą je okłamać bez konsekwencji. „Niee, nikt nie patrzy, co tam robisz z mikrofonem. Trust me, bro”.

Ciekawostka

Istnieją pewne przypadki, kiedy ta sytuacja się odwraca i apki jednak są w stanie sobie zagwarantować, że nikt ich nie analizuje, a odwiedzany przez nie system jest mainstreamowy, prosto z fabryki. Takie możliwości daje im trusted computing.

Ale nawet gdyby badacze, z tego czy innego powodu, nie byli w stanie kontrolować własnego telefonu, to jeszcze nie koniec walki. Bo aplikacja musi w końcu wysłać nasze sekrety swoim twórcom.

Tymi danymi mogą być na przykład nagrania naszych rozmów. Są „martwe”, nieruchome, niezdolne do aktywnego ukrywania się. Podobnie jak piosenka w formacie MP3 nie zaatakuje naszych uszu, póki jej nie odtworzymy.

Badacz może postawić na drodze do internetu własny router lub inne urządzenie, przechwytujące i analizujące ruch. W ten sposób szybko by wyszło na jaw, czy jakaś apka próbuje wysyłać w świat megabajty nagrań, mimo że jej akurat nie używamy.

Do takich analiz nie potrzeba żadnych drogich laboratoriów, bariery wejścia są niskie. Wiele da się osiągnąć bibliotekami open source i znajomością komputera.
A nagroda dla kogoś, kto zdemaskowałby podsłuchy od wielkiego korpo? Wieczna chwała, szacun na dzielni. Otwarte drzwi do ciekawych współprac dla tych, którym na tym zależy.

W takim klimacie popularne i kontrowersyjne apki Facebooka ściągają na siebie wiele par oczu. Oczu nieraz im wrogich. Oczu przenikliwych, zdolnych patrzeć na apki na własnych warunkach, jak przez lustro weneckie.

A jednak do teraz nie widziałem, żeby badacze bili na alarm: „tak, te aplikacje podsłuchują nas przez mikrofon”. To dla mnie jeden z najmocniejszych dowodów na to, że jednak nie słuchają.

Tym niemniej niektórzy mogliby uznać fragment wyżej za ślepą wiarę w autorytet, a przecież ludzie mogą być zawodni. Ale oprócz nich mamy też zabezpieczenia cyfrowe.

Kwestia zabezpieczeń

Skupię się tu na systemie Android, bo jest mi bliższy.

Jeśli ktoś nie wie – to system obecny na większości smartfonów. Co nie jest iPhone’em, to ma dużą szansę mieć w sobie Androida.

Dawniej, do wersji 6 Androida, mieliśmy Dziki Zachód. Aplikacje mogły tak po prostu sobie nagrywać różne rzeczy mikrofonem. Ale potem się to zmieniło, wraz z uszczelnieniem systemu pozwoleń. To użytkownik decyduje, czy danej aplikacji wolno używać mikrofonu.

Pozwolenia odpowiadają z grubsza warstwie System operacyjny. Z naszego punktu widzenia to chociażby zwykłe menu z ustawieniami telefonu. Możemy tam zaznaczyć, że nie dajemy aplikacji dostępu do mikrofonu.

Zrzut ekranu pokazujący fragment menu z Androida, pytający czy chcemy pozwolić aplikacji na dostęp do mikrofonu

A apka tego zakazu nie przeskoczy, bo warstwy wyższe są zależne od niższych. Może co najwyżej prosić nas o pozwolenie na mikrofon, wyświetlając oficjalne systemowe okienko. A my możemy odmawiać.

Czy mogłaby to jakoś obejść i włączyć nagrywanie? Legalnie – tylko przez uśpienie naszej czujności, bo systemu nie obejdzie.
Może poprosić o pozwolenie w sytuacji, kiedy nie brzmi ono podejrzanie albo kiedy robimy coś w pośpiechu. Mam dwa przykłady próśb o dostęp do mikrofonu; jedną wiarygodną, drugą mniej:

Messenger

Jeśli spróbujemy nagrać film bezpośrednio przez aplikację, poprosi nas o dostęp do mikrofonu.
Brzmi w porządku, w końcu jakoś trzeba nagrać filmy z dźwiękiem. Android, przynajmniej mój, nie ma niestety czegoś takiego jak pozwolenie tylko na krótkotrwałe nagranie multimediów.
Przeglądarka Kiwi Browser

Jako jedna z bardzo nielicznych mobilnych przeglądarek pozwala instalować dodatki. Czasem się to przydaje.
Ale zaniepokoiło mnie, kiedy chciałem jeden taki dodatek uruchomić, wybierając ręcznie jego folder. Aplikacja poprosiła mnie o dostęp do mikrofonu. Odmówiłem i mogłem dalej normalnie z niej korzystać.
Możliwe że chodziło o jakąś niewinną możliwość udzielania poleceń głosowych. Ale, cytując klasyka, niesmak pozostał.

Czy to przez uśpioną czujność, czy to przez pośpiech, czasem udzielimy apce pozwolenia. Wtedy niestety pozostanie aktywne, póki sami go nie cofniemy. Taka słabość systemu Android.
Ale nawet jeśli aplikacja dostanie pozwolenie na mikrofon, nie oznacza to, że nasz telefon już zmienił się w podsłuch.

Przede wszystkim już od wersji 9 (Pie) nie da się włączyć nagrywania, gdy apka jest w tle. Nadal można ją najpierw włączyć, a potem zablokować ekran, zachowując działanie mikrofonu – jak ja w moim eksperymencie. Ale nikt nie włączy nam podsłuchu zdalnie, w telefonie nieużywanym przez dłuższy czas.

Od pewnego czasu zabezpieczenia poszły jeszcze dalej. Android od wersji 12 dostał kropkę bezpieczeństwa – oznaczenie widoczne w górnej części ekranu, kiedy jakaś apka korzysta z mikrofonu. Apple dodało taką kolorową kropkę wcześniej, w 2020 roku, w wersji iOS 14.
Oznaczenia nieco zmieniają reguły gry. Od teraz żadna apka nie powinna być w stanie dyskretnie nas nagrywać.

No dobra. A czy jest opcja, że apka jakoś oszuka system? Przyzna sobie pozwolenie, zmusi mikrofon do ciągłego nagrywania, wyłączy kropki informacyjne?

Zapewne tak, ale w tym celu musiałaby zhakować nam telefon. Oznacza to, że wchodzimy w czarną strefę, gdzie raczej nie spotkamy większych korpo.
Nie wierzę w ich standardy etyczne. Ale pewien poziom awersji do ryzyka to jednak mają.

Kwestia rozmiaru danych

Załóżmy, że Facebook wysyłałby sobie na masową skalę nagrania rozmów użytkowników. Ta masowość mogłaby go zgubić. Do wykrycia jego działań nie byliby już potrzebni zawodowi badacze aplikacji; nawet cywil mógłby się zorientować.

Po pierwsze, pliki audio są znacznie większe niż dane tekstowe. Po drugie, każdy użytkownik ma wgląd do uproszczonych statystyk pokazujących, ile danych zużyły apki
(na Androidzie odwiedzamy kolejno opcje: Ustawienia, Sieć komórkowa, Wykorzystanie transmisji danych).

Wśród rzeszy użytkowników Messengera znalazłyby się osoby, które na te dane patrzą, bo chcą na przykład mieścić się w limicie swojego doładowania. I ktoś by się w końcu zorientował. Apki firmy Meta byłyby widoczne z nazwy jako pochłaniacze setek megabajtów danych. Nawet kiedy się z nich nie korzysta. O sprawie zrobiłoby się głośno.

Poza tym te wszystkie ciężkie dane, od setek milionów ludzi, leciałyby na serwery Mety. Musieliby je przetworzyć, wyciągnąć z nich informacje. A to duże zużycie mocy obliczeniowej (czyli prądu, czyli całkiem namacalne koszty!), ryzyko zapychania łącz…

Schemat pokazujący, jak od mikrofonu do ikony apki Messengera wędrują dane, oznaczone przez ciężarek z narysowanymi nutami. Identyczny ciężarek widać nad strzałką prowadzącą od Messengera do loga firmy Meta.

I to wszystko po to, żeby pozyskiwać informacje o użytkownikach jednym z najbardziej okrężnych i niewydajnych sposobów? Wątpię.

Ale to nie wyczerpuje wszystkich możliwości. Może nagrania są analizowane jeszcze na naszym telefonie, a do Facebooka trafiają jedynie dużo lżejsze wyniki analiz?

Istnieją metody uczenia maszynowego, określane marketingowo mianem sztucznej inteligencji. Gdzieś w Messengerze lub innej aplikacji mógłby być zagnieżdżony tak zwany model. Program wyspecjalizowany w zamianie dźwięku na tekst.
Gdyby Facebook użył czegoś takiego, to rozwiązałby sprawę wysyłania danych oraz płacenia za prąd. Przerzuciłby koszty na nas.

Schemat pokazujący, jak od mikrofonu do ikony apki Messengera wędrują dane, oznaczone przez ciężarek z narysowanymi nutami. Kolejna strzałka prowadzi w dół, do ikony drzewka decyzyjnego. Stamtąd do Messengera wraca strzałka, oznaczona ikoną karteczki z napisem 'Dane'. Na koniec strzałka z taką samą karteczkę prowadzi do loga firmy Meta.

…Tylko że to tylko z pozoru brzmi tak różowo. Bo modele to złożone programy, ciężkie i wymagające.

Do tego stopnia, że przez dłuższy czas nie było nawet mowy o analizie głosu na urządzeniu. Opcja dyktowania tekstu, zapewniana przez Google, polegała na wysyłaniu do nich nagrań. Tam analizował je jakiś mocarny serwer i odsyłał wyniki.
Pierwsze modele on-device od Google’a, przetwarzające dyktowany tekst na telefonie, weszły dopiero w 2019 roku.

Dla formalności: fakt, że stosowano przesyłanie nagrań, nie przemawia za teorią ciągłego podsłuchu. Dyktowanie działało tylko przez chwilę, na życzenie użytkownika, wysyłano krótkie fragmenty. Jest więc znacznie bardziej realne od strony praktycznej.

Ten pierwszy model, którym chwalił się Google, ważył 80 MB i był w stanie rozpoznawać tylko język angielski. Więc ewentualne podsłuchiwanie Polaków by odpadało.

To może spójrzmy – bardzo luźno i nieoficjalnie – na nowinkę z ostatnich miesięcy. Model zwany Whisper, zamieniający mowę na tekst i obsługujący wiele języków.

Jego najmniejsza „pełna” wersja, tiny, znajduje się tutaj. Trzon modelu waży 151 MB.
Od biedy da się zejść nieco niżej; pewna osoba „odchudziła” model do rozmiaru 39 MB, do formatu .tflite, przystosowanego do działania na telefonie. Ale nie ma nic za darmo – takie odchudzanie odbywa się kosztem jakości rozpoznawania mowy.

A, przypomnę, Whisper potrafi jedynie zamieniać nagrania głosu na tekst. Do celów reklamowych trzeba by jeszcze wyciągnąć z tekstu pojęcia – albo w sposób szybki, lecz pełen niedoróbek, albo dokładny – co jednak wymagałoby jeszcze jednego, osobnego modelu.

Na tej podstawie możemy stwierdzić, że Messenger, ważący w całości 52,6 MB, nie mógłby zawierać w sobie pełnej wersji Whispera ani nawet kilkuletniego modelu Google’a. Cała aplikacja jest mniejsza niż sam model rozpoznający mowę.
Od biedy zmieściłby się Whisper w wersji .tflite, ale nie zostałoby wiele miejsca na inne rzeczy.

Ale może podstawowa apka pobierałaby sobie model później, na raty?
Jest to możliwe, ale raczej byłoby do wychwycenia. Mówimy o co najmniej kilkudziesięciu megabajtach, których nie dałoby się wyjaśnić pobieraniem multimediów. Dla niektórych to nic, ale bardziej oszczędni użytkownicy by się mogli połapać.

Zwłaszcza że niektórzy co pewien czas czyszczą dane aplikacji. W takim wypadku model pobrany z zewnątrz, niebędący częścią pierwotnej aplikacji, również zostałby usunięty. Apka musiałaby go pobierać od nowa.

W dodatku podczas pracy modelu szybciej rozładowywałaby się bateria. Coś takiego dostrzegłby nawet szeregowy użytkownik, nie mówiąc już o badaczach.

Nie wykluczam całkowicie opcji, że Facebook mógłby wykorzystać jakieś triki, żeby wyciągać dane z nagrań poza telefon. Ale pełnoprawna analiza mowy raczej odpada, podobnie jak wysyłanie surowych nagrań w świat.

Podsumowanie wątku

Patrząc na wszystkie powyższe fakty, zaryzykuję i stwierdzę, że duże firmy nie śledzą nas przez dyskretne nagrywanie naszych rozmów. Zbyt wielkie ryzyko, zbyt mała opłacalność, za wiele przeszkód technicznych do pokonania.

Być może kiedyś wścibskie firmy miały swój złoty czas na podsłuchiwanie. Nie było opcji chroniących prywatność, nie było przepisów RODO/GDPR, a rozpoznawanie mowy było już użyteczne w praktyce.
Ktoś i tak by je pewnie złapał na tym procederze, więc nie uważam tej opcji za realną. No ale załóżmy, że istniała.

Tym niemniej – przez ostatnie lata ta furtka się zamknęła. Ryzyko prawne jest większe, a smartfony mocniej chronią prywatność (choć bardziej dla poklasku niż ze szczerych chęci). Potajemne sięganie po mikrofon już naprawdę nie powinno się aplikacjom opłacać. Ten jeden raz to my, użytkownicy, jesteśmy bliżsi zwycięstwa.

Jak nie podsłuch, to co?

Wyżej nawrzucałem trochę argumentów na niekorzyść teorii podsłuchu. Ale przyroda nie znosi pustki. Ubijając jedno wyjaśnienie, przyda się przedstawić alternatywne.

„Okej, pełno dowodów przeciw nagrywaniu. Ale przecież rozmawialiśmy o czymś, a potem to się pojawiło w reklamie. Nie ma bata, musieli podsłuchiwać rozmowę”.

Nad możliwymi wyjaśnieniami rozwodziłem się w swoim innym wpisie, omawiającym komentarze spod filmu TechnoStrefy z YouTube’a. Przypomnę krótko najbardziej prawdopodobnych winowajców odpowiedzialnych za celne reklamy:

Pliki cookies.

Mówią Facebookowi o tym, że odwiedziliśmy konkretną stronę internetową (o ile miała u siebie element zwany Facebook Pixel). Mogą być obecne również na stronach nienależących do Fejsa. Mogą nas złapać nawet wtedy, gdy korzystamy ze zwykłej przeglądarki na innym urządzeniu, a nie z apki na telefonie.
Korelowanie po lokalizacji.

Gdy mamy apkę od Facebooka, to da się ustalić, że byliśmy w konkretnym miejscu. Albo jednym i tym samym miejscu co inna osoba.
Czy to przez koordynaty GPS-a, czy to przez korzystanie z tego samego hotspota. Czy to nawet przez Bluetooth. Albo nietypowe nazwy hotspotów wokół nas, nawet jeśli z żadnym się nie połączyliśmy.
„Zarażanie preferencjami”.

Jeśli Facebook akurat nie ma na nas reklamowego pomysłu, może po prostu podpatrzeć coś u osoby, z którą ostatnio wchodziliśmy w interakcje, i podsyłać to samo.

Przykład? Pisaliśmy z kimś, kto akurat odkrył w sobie zajawkę na komiksy. Facebook wie o tej zajawce przez to, co ta osoba klikała. Wie również o tym, że korespondowaliśmy, więc dla nas również szykuje „przez skojarzenie” reklamy komiksów. I tak byśmy je dostali, niezależnie od innych czynników.
Ale zanim reklamy zdążą nam się pokazać, spotykamy tę osobę na żywo; oczywiście mówi o komiksach. Potem, gdy pokazuje nam się ich reklama, obwiniamy mikrofon. Tymczasem to nie jego wina, zarażenie nastąpiło wcześniej.

Wiele przypadków „podsłuchiwania” dałoby się wyjaśnić zachodzeniem którejś z tych rzeczy. Co do punktu trzeciego nie mam pewności, bo nie mam wglądu w algorytmy Facebooka, ale sam na ich miejscu bym coś takiego dodał. A dwie pierwsze rzeczy to pewniaki.
Jeszcze obszerniejszą listę trików Facebooka stworzyła organizacja EFF.

A jeśli jesteśmy absolutnie przekonani, że ani my, ani rozmówca nie szukaliśmy rzeczy, o której rozmawialiśmy w towarzystwie swoich telefonów? Możliwe, że nasza trafna reklama to po prostu przypadek.

Każdemu się chyba zdarzyło pomyśleć o piosence, a chwilę później ją usłyszeć w odbiorniku. Albo spotkać kogoś znajomego w dużym mieście, z dala od naszych typowych rewirów. Niektórzy wygrywają w Lotto.

A my tutaj mamy znacznie węższą przestrzeń możliwości. Facebook już zna nasz ogólny profil zainteresowań, styl życia. Może nas zalewać reklamami rzeczy, które robili inni podobni ludzie.

Może nam się na przykład wydawać, że nasze zainteresowanie rzemiosłem – pleceniem makram, pszczelarstwem, majsterkowaniem, drukiem 3D – to nietypowe i fajne hobby.
Ale Facebook, patrząc w skali świata, widzi wiele osób takich jak my – znużonych trybikowaniem w korpo. Próbujących uciec w coś co naturalne, namacalne, fizyczne. Podrzucając rzeczy z tego spektrum, w końcu ugodzi nas celną reklamą.

Jako ludzie jesteśmy po prostu przewidywalni. Wiem że to trudne do zaakceptowania. Ale niestety bardziej prawdopodobne niż działanie złego mikrofonu

Jak się chronić

Wyżej rozpisałem się o tym, że giganci raczej nas nie podsłuchują, bo im się to nie opłaca. Ale na świecie jest wielu drobniejszych graczy, poza tym opłacalność może się zmieniać. Tak czy siak warto się chronić.

Pierwsze, proste rozwiązanie dla Androida – wyłączmy dostęp do mikrofonu wszystkim apkom. Może nawet systemowym, jak aparat/kamera. Kiedy mikrofon będzie potrzebny, to po prostu udzielimy apce zgody. Pamiętając, żeby ją wycofać, kiedy już zrobimy swoje.

Nie ma wymówek – to jeden szybki pstryczek w opcjach, a da nam mnóstwo komfortu.

Chcemy wrzucić filmik do social mediów albo komunikatora?
To nagrajmy go domyślną systemową aplikacją, do pliku. A w cudzej apce wybierzmy opcję załadowania tego pliku. Większość powinna taką mieć.
Nie korzystajmy z opcji nagrywania bezpośrednio przez komunikator, bo w ten sposób musimy dać mu dostęp do mikrofonu.

Jeśli ktoś mikrofonom zupełnie nie ufa, to może rozejrzeć się za urządzeniami zawierającymi fizyczny wyłącznik mikrofonu.
Ich przykłady to telefony oparte na systemie Linux – Pinephone i Librem. Ale ostrzegam, że na obecnym etapie są czymś bardziej dla zapaleńców i majsterkowiczów.

No i pamiętajmy, że mikrofony nie są aż takim zagrożeniem w przypadku legalnych, oficjalnych apek mobilnych – bo ich twórcy po prostu mieliby zbyt wiele do stracenia.

Ale co, jeśli ta legalność, oficjalność lub choćby „apkowatość” zostanie jakoś naruszona? Wtedy już może się zrobić ciekawie. O tym w kolejnym wpisie

Źródła obrazków

Piramida warstw systemu:

Piramida Maslowa autorstwa Androidmarsexpress (ze zbiorów Wikimedia Commons, licencja CC BY-SA 4.0);
ikona procesora – Flaticon, autorstwa Freepik.
ikona strzałek – Flaticon, autorstwa NextGen;
ikona mikrofonu – emoji od JoyPixels;
ikona sygnału wi-fi – Flaticon, autorstwa Freepik;

Schemat przesyłania danych Mecie:

ikona uśmiechniętego drzewka decyzyjnego – Flaticon, autorstwa Freepik;
nutki – Emojipedia;
ikona kettlebella (ciężarka) – Flaticon, autorstwa Amethyst Design.

Elementem wspólnym ikona Messengera oraz logo firmy Meta. Wszelkie przeróbki moje.