Kolaż złożony z kilku elementów. Po lewej stronie widać fragment kobiecych ust i dłoń trzymającą żółty mikrofon. Widać, że to zdjęcie prawdziwej postaci. Po prawej widać rysunkową postać nasłuchującą za pomocą szklanki. W tle widać niebieską falę dźwiękową z wyraźną poziomą linią pośrodku. Zza fali wygląda emotka uśmiechniętej małpy zakrywającej dłońmi uszy.

Na mikrofonie Tarja Turunen, pierwsza wokalistka Nightwisha :metal:
Źródła obrazków: nagranie koncertu, Emojipedia, WikiHow.

To mój drugi wpis na temat wykorzystania mikrofonów przez aplikacje. Ten poprzedni, jak na standardy tego bloga, był dość łagodny dla wielkich firm.

Pokazywałem różne argumenty za tym, że apki od Facebooka raczej nie nagrywają mikrofonem w telefonie naszych rozmów.
Pozwoliłem sobie nawet napisać, że raczej nie robią tego żadni wielcy gracze. Za dużo do stracenia, za mało do zyskania.

Ale teraz koniec sielanki.

Poza Facebookiem i spółką mamy też graczy skłonnych do ryzyka, mniej spętanych przepisami. Niektóre rzeczy są lepiej przystosowane do nasłuchiwania niż mobilne apki. Zaś mikrofony mogą słuchać innych rzeczy niż nasz głos.

Ten wpis składa się z dwóch głównych, raczej niezależnych części. W pierwszej obalę parę założeń, na których dotąd opierała się nasza ochrona przed podsłuchem.
A potem pokażę coś mało znanego, a mrożącego krew w żyłach – wykorzystanie niesłyszalnych dźwięków do lokalizowania i rozpoznawania użytkowników.

Spis treści

Luzujemy założenia

W poprzednim wpisie pokazałem, że techniczna możliwość nagrywania naszych rozmów przez mikrofon w telefonie – nawet potajemnie, przy zablokowanym ekraniejak najbardziej istniała. Przynajmniej w mojej wersji systemu, Androidzie 10.

Ale, mimo istnienia możliwości nasłuchu, gigantom raczej nie opłaca się non stop dobierać nam do mikrofonów. Jesteśmy bezpieczni… ale czy na pewno?

Można powiedzieć, że nasza prywatność „mikrofonowa” opiera się na kilku czynnikach, występujących jednocześnie:

  1. Aplikacje są na naszym systemie operacyjnym jedynie gośćmi, a sam system jest po naszej stronie.
  2. Autorzy apek nie mogą sobie pozwolić na nielegalne działania.
  3. Dane dźwiękowe są zbyt ciężkie, żeby mogły być nieustannie wysyłane poza telefon albo analizowane algorytmem uczenia maszynowego.

Kiedy wszystkie założenia są spełnione, to szanse na to, że ktoś nas ciągle podsłuchuje mikrofonem, są raczej nikłe. Ale co będzie, jeśli zostaną naruszone?

Uwaga

Tak jak przy innych wpisach z tej serii, tak i tutaj skupiam się na smartfonach, a konkretniej systemie Android w wersji 10 (który mam i mogę wnikliwiej sprawdzać).
Jeśli Twój system już od dawna chroni przed którymś z opisanych zagrożeń, to tylko się cieszyć! Ale nie bagatelizujmy problemów z innymi urządzeniami.

Gdy aplikacje mają większą władzę

„System jest po naszej stronie”, założenie pierwsze. Przypomnę tutaj piramidkę smartfonowych warstw:

Schemat pokazujący hierarchię we współczesnym urządzeniu. Ma kształt odwróconej piramidy. Na samym dole mamy ikonę procesora podpisaną CPU. Odchodzą od niej strzałki do ikonki symbolizującej mikrofon. Cała warstwa jest podpisana 'hardware'. Nad nią w piramidzie mamy kolejno: 'firmware', 'jądro systemu' oraz 'system operacyjny'. Na tej warstwie stoi mniejszy element, podpisany 'Programy' i opatrzony ikoną aplikacji Messenger.

Rzeczy znajdujące się wyżej są zależne od tych, które znajdują się niżej. Warstwą, po której możemy się poruszać my, użytkownicy, jest System operacyjny.

Przykład – korzystając z telefonów z systemem Android lub iOS, możemy ustawiać pozwolenia. Jednym pstryczkiem dawać lub odbierać aplikacjom dostęp do elementów telefonu, takich jak mikrofon. A one nie są w stanie tego zakazu obejść.

Ale co w przypadku, kiedy twórca naszego systemu jest bardziej przychylny jakiejś aplikacji niż nam? Z czymś takim mamy do czynienia w przypadku aplikacji systemowych. Zwykle tkwią głębiej, sięgając jądra systemu, więc nie mamy na nie takiego wpływu jak na resztę.

Jeden przykład poznałem osobiście. Na ekranie głównym mojego telefonu (Huawei, Android 10) pewnego dnia, po jakiejś aktualizacji, tak po prostu pojawiła się nowa ikonka. Aplikacja AI Voice.

Jestem przekonany, że nigdzie nie klikałem, że chcę to instalować. Ot, taki niespodziewany prezent.

Co najgorsze, z automatu miał włączonych wiele pozwoleń – w tym na dostęp do mikrofonu. Inne aplikacje, jak lubiany przez mnie Termux, miały po instalacji wyłączone pozwolenia, musiały dopiero prosić mnie o poszczególne zgody.
Jest to zresztą ponoć domyślny stan rzeczy, począwszy od wersji 6 Androida.

A jednak ta apka była faworyzowana i przeskoczyła całą kontrolę. Co więcej, miała szeroki zakres uprawnień.

Nie jest to zresztą jakiś wyjątek. Taki program to asystent głosowy. Obecny na wielu smartfonach i dodawany przez poducentów – Apple ma Siri, Samsung ma Bixby, inni mogą korzystać z Google Assistanta.

Asystenci usypiają naszą czujność, jeśli chodzi o udzielanie pozwoleń. W końcu mają nam ułatwiać korzystanie z telefonu… więc to chyba logiczne, że muszą być mocno zintegrowani z jego funkcjami?

Ale to i tak nic. Asystenci na telefonach są mimo wszystko apkami, podlegają choć częściowej naszej kontroli.
Gorsze są fizyczne urządzenia z zainstalowanymi asystentami głosowymi. To często tak zwani asystenci domowi (ang. home assistants). Mają kształt małych głośniczków. Stoją nieruchomo i przyjmują polecenia głosowe.

To chociażby urządzenia Google’a takie jak: Google Home, Nest Mini, Nest Hub. Z kolei Amazon ma swoją Alexę.

Wokalistka zespołu Nightwish, Floor Jansen, stoi uśmiechnięta, zwrócona przodem do widza. W rękach trzyma urządzenie Amazon Alexa, w kształcie małego czarnego głośniczka

Trzecia wokalistka Nightwisha, Floor Jansen, w reklamie urządzenia Amazon Alexa.
Bardzo szanuję wokal, nieco mniej dobór partnerów komercyjnych.

W przypadku takich urządzeń nie ma co mówić o piramidce.
Cała piramidka – od sprzętu fizycznego po programy – jest bowiem pod kontrolą producenta, a my mamy bardzo ograniczone możliwości działania.

Co gorsza, tacy asystenci są popularni – w 2020 roku takie coś stało w co piątym brytyjskim domu.
Nieraz są też zintegrowani z różnymi funkcjami automatyki domowej, takimi jak regulowanie temperatury albo otwieranie bramy. Przejmując komuś asystenta, można nie tylko go podsłuchać, ale i przejąć jego „inteligentny” dom.

Gdy przeciwnik nie przejmuje się prawem

„Nasi adwersarze będą się trzymali legalnych metod”. To założenie raczej prawdziwe w przypadku cyfrowych gigantów. Nie opłaca im się podsłuchiwać na masową skalę, bo w takim wypadku byliby łatwym celem dla prawodawców w różnych krajach.

Ale oprócz nich są też „kowboje” – młode, dynamiczne firmy z branży reklam śledzących; być może z krajów, gdzie nie martwią się przepisami ochrony danych. Albo zwykli oszuści. Albo służby.

Wiem, że zaangażowanie tych ostatnich wydaje się mało realne. Ale niedawne wydarzenia z całego świata pokazały, że nie trzeba być Jamesem Bondem, żeby zostać celem bardziej szpiegowskich zabawek. Wystarczy głośno krytykować rządy, które nie lubią krytyki.

Głośnym przykładem z ostatnich lat jest Pegasus – nie tyle pojedynczy wirus, co cały pakiet usług pozwalających przejąć kontrolę nad cudzym telefonem i podkradać informacje. Stosowany przez służby państwowe, które są mniej ograniczone prawem niż korporacje.

A przejęcie kontroli nad telefonem oznacza też nieograniczony dostęp do mikrofonu. Zyskujemy podsłuch w tradycyjnym znaczeniu tego słowa.

Ba, telefony nie są jedynym zagrożeniem! Według dokumentów ujawnionych przez WikiLeaks, CIA posiadało narzędzia hakerskie pozwalające przejmować kontrolę nad telewizorami Samsunga i dobierać się do ich mikrofonów.

…Tak, mikrofonów. Nie głośników. W przeciwieństwie do niektórych innych modeli, te od Samsunga mogą przyjmować polecenia głosowe od użytkowników, więc mają w zestawie mikrofony. Wymarzony cel.

Gdy przetwarzanie dźwięku jest łatwe

Poprzednio rozwodziłem się nad tym, że apka raczej nie wysyłałaby wszystkich nagrań w świat (bo za ciężkie). Miałaby też problem z nieustannym rozpoznawaniem mowy na naszym smartfonie.

Przypomnę: wymagałoby to dużych modeli uczenia maszynowego.
Są trudne do ukrycia (zwykle mają więcej megabajtów niż niejedna apka). Do tego szybko zużywałyby baterię, telefon by nam się nagrzewał. Ktoś na świecie by się zorientował i ujawnił cały proceder.

…Tylko że mówiliśmy o pełnoprawnym, nieustannym rozpoznawaniu mowy. A to założenie można łatwo poluzować.

Dla nas, ludzi, rozumienie tekstu mówionego jest czymś całkiem naturalnym – niezależnie od tego, czy ktoś powie jedno słowo, czy też całe zdanie, raczej wyłapiemy sens wypowiedzi.
Zaś w przypadku elektroniki wystarczy minimalna zmiana wymagań, żeby przejść od czegoś skrajnie trudnego do łatwizny. Co zresztą trafnie pokazuje XKCD:

Panel z komiksu XKCD z ludzikami-patykami. Pokazuje scenę, w której jedna postać stoi, a druga siedzi przy komputerze. Nad głowami postaci są dymki z wypowiedziami. Pierwsza prosi o dodanie funkcji sprawdzającej po zrobieniu zdjęcia, czy wykonano je w parku narodowym. Druga odpowiada, że to proste. Potem pierwsza postać dodaje, żeby sprawdzało też, czy na zdjęciu jest ptak. Druga odpowiada, że potrzebuje grupy badaczy i pięciu lat. Podpis mówi, że w świecie informatyki jest cienka granica między prostym a niemożliwym.

Źródło: Randall Munroe, XKCD.

W praktyce analiza dźwięku jest znacznie łatwiejsza, kiedy program porównuje fragmenty nagrań z dźwiękami z zamkniętej listy.

Ciągłe, złożone analizowanie na bieżąco? Raczej odpada.
Ale nasłuchiwanie, czy zabrzmiał jakiś konkretny dźwięk? A potem włączenie – na krótki czas – bardziej hardkorowej analizy? To już o niebo łatwiejsze!

Ciekawostka

Pierwowzór aplikacji Shazam, do rozpoznawania utworów muzycznych, powstał już w 2002 roku. W czasach grubo przed jakimikolwiek smartfonami! Na początku usługa polegała na tym, że dzwoniło się pod wskazany płatny numer i pozwalało automatowi posłuchać muzyki w tle.

W praktyce tak właśnie ułatwiają sobie pracę wspomniani wyżej asystenci głosowi:

  1. Tkwią w trybie czuwania i nasłuchują przez mikrofon. Czekają na określone słowa aktywujące (wake words).
  2. Gdy je wypowiemy, to przechodzą do trybu aktywnego – dokładniej rozpoznają mowę, żeby zrozumieć nasze polecenia.

Oczywiście ma to swoje ciemne strony.
Punkt 1 wymaga nieustannego słuchania – w końcu asystent potrzebuje tego do działania!
Z kolei punkt 2 często wiąże się z wysłaniem nagrań naszego głosu w świat, jakiejś obcej firmie. Bo, jak już wiemy, analiza głosu jest wymagającym zadaniem, które warto zostawić mocnym komputerom.

Oba punkty mają swoje uzasadnienie. Ale jednocześnie normalizują w oczach społeczeństwa nasłuch i dzielenie się nagraniami. A wielkie firmy już parę razy nadużyły tej możliwości. Przykładem niech będzie wpadka Google’a.

Jak się okazało, niektóre nagrania naszych poleceń trafiają do zewnętrznych podwykonawców. A ci je transkrybują, żeby firma mogła potem szlifować algorytmy.

Jeden z takich podwykonawców przekazał około 1000 nagrań belgijskim mediom.
Co ciekawe, w 153 spośród nich nie padło hasło aktywujące OK, Google. Użytkownicy nie mieli świadomości, że aktywowali asystenta, zaś ich słowa poszły w świat.

Z kolei Alexa, poproszona przez pewnego człowieka o pobranie historii jego nagrań, spełniła polecenie… Tylko że nie do końca, bo udostępniła mu ponad 1700 nagrań innej osoby.

Szpiedzy podchodzą po cichu

Fragment o asystentach głosowych może nam dawać do myślenia – skoro nasłuchiwanie konkretnych rzeczy nie jest takie trudne… to co by było, gdyby aplikacje, zamiast zbierać wszystko, wyłapywały tylko jakieś krótkie, ale znaczące dźwięki?

Coś takiego ma miejsce. I jest wykorzystywane w bardzo kreatywny sposób.
Czas na część drugą tego wpisu – o wykorzystaniu ultradźwięków i dźwięków na skraju słyszalności.

Przyglądam się i widzę, że każdy tu tak: w krąg powszechne brzuchomówstwo panuje, a jam myślał, że kruczenia i burczenia ze strachu! Wsłuchuję się tedy coraz niżej, aż na wysokości pasa słyszę coraz lepiej. I mówią brzuchy: Oj, niedola, niedola, byłażby nam wola!

Stanisław Lem, „Cyberiada” (rozdział o Harmonii Sfer).

Słyszalność i ultradźwięki

O dźwięku wiem niewiele, więc temat potraktuję momentami pobieżnie, darujcie. W każdym razie – dźwięk ma taką swoją właściwość zwaną częstotliwością (wyrażaną w hercach, Hz).
Wpływa ona między innymi na to, czy w ogóle go słyszymy.

Człowiek potrafi usłyszeć dźwięki, których częstotliwość mieści się w przedziale od około 20 herców do kilkunastu, maksymalnie 20 kiloherców (kHZ) z hakiem. Jeśli jest wyższa, to mamy do czynienia z ultradźwiękami, niesłyszalnymi dla człowieka.

Przykładowy test możemy sobie zrobić przez YouTube’a. Uwaga – może nie być w stu procentach dokładny, a dźwięk może nagle się ucinać w okolicach 16 kHZ ze względu na kompresję stosowaną przez YT.

Tyle jeśli chodzi o ludzkie ucho. A jak to jest z elektroniką konsumencką?

Według ciekawej dyskusji ze Stacka, urządzenia są w stanie obsługiwać dźwięki na skraju słyszalności. Głośniki komputera mogą je tworzyć, zaś mikrofony w smartfonach – odbierać. Wiele zależy od modelu urządzenia.

Ciekawostka

Zakres słyszalności zmienia się z wiekiem; młodsi ludzie są w stanie usłyszeć dźwięki o wyższej częstotliwości.
Niektórzy wykorzystali tę właściwość do walki z kłopotliwą młodzieżą – wagarowiczami i potencjalnymi wandalami. W miejscach, gdzie nikt nie powinien się kręcić, uruchamiają tak zwane komary – żródła dźwięków o wysokiej częstotliwości. Są nieprzyjemne dla młodszych uszu i raczej niesłyszalne dla starszych. W Wielkiej Brytanii zostały uznane za nieetyczne i zakazane. W USA nadal są w użyciu.

Dźwięk w służbie śledzenia

Jeśli nasz sprzęt obsługuje większy zakres częstotliwości niż ucho, to może dojść do niepokojącej sytuacji – nie słyszymy żadnego dźwięku, ale urządzenia aktywnie ze sobą „rozmawiają” przez głośniki i mikrofony. Skrycie przekazując sobie informacje.

W pewnym artykule naukowym badacze z Niemiec wyróżnili cztery rodzaje zagrożeń – łączenie naszej tożsamości ze słuchanymi treściami, łączenie różnych urządzeń w jeden profil, określanie naszej lokalizacji oraz deanonimizację. Omówię je po kolei.

Cztery mniejsze schematy ułożone w dwóch rzędach po dwa. Pokazują cztery zagrożenia związane z ultradźwiękami: rozpoznawanie treści, łączenie urządzeń, lokalizowanie użytkownika i deanonimizację. Każdy z nich pokazuje strzałkami kierunek przepływu informacji od użytkownika do adwersarza, oznaczonego emotką uśmiechniętego diabełka.

Źródło: artykuł naukowy. Przeróbki i tłumaczenie moje.

Przy okazji przyjmijmy tutaj parę założeń, które będą miały zastosowanie do wszystkich omawianych przypadków:

  • Specjalne sygnały niekoniecznie muszą być ultradźwiękami.

    Dźwięki na skraju słyszalności – a nawet całkiem słyszalne, lecz krótkie pyknięcia – też spełniałyby się w roli specjalnych sygnałów. Więc progowanie (ucinanie dźwięków powyżej pewnej częstotliwości) niekoniecznie nam pomoże.

  • Nasz przeciwnik – np. firma reklamowa – ma kontrolę zarówno nad źródłem specjalnych sygnałów, jak i nad aplikacją na naszym telefonie.

    Całkiem możliwe w czasach, gdy niemal każdy oferuje własną apkę, a ludzie masowo to instalują.
    Oczywiście możliwe są również partnerstwa reklamowe – jedna firma dogaduje się z drugą, że będzie nadawała konkretny sygnał. A ta druga konfiguruje swoją aplikację, żeby tego sygnału nasłuchiwała.

  • Apka korzysta z naszego mikrofonu.

    To może być najbardziej kontrowersyjne założenie, bo we współczesnych urządzeniach mamy kropki ostrzegawcze; nie da się też włączyć mikrofonu dyskretnie, w trybie wygaszonego ekranu.
    Ale wyobraźmy sobie, że mamy jakąś uzależniającą apkę do nagrywania filmików. Zaraz po włączeniu aktywuje nam aparat i mikrofon, po czym na chwilę zostawia je włączone. Irytuje nas to, ale nie budzi podejrzeń – bo zakładamy, że może nas co najwyżej nagrać, a przecież nic nie mówimy.

Rozpoznawanie słuchanych treści

Wyobraźmy sobie, że oglądamy telewizor i jednocześnie korzystamy z apki na telefonie.
Ale twórca apki oraz nadawca programu to jedna i ta sama organizacja (albo dwie współpracujące).

Telewizor podczas konkretnego programu nadaje co pewien czas określony, niesłyszalny sygnał dźwiękowy. Apka go odbiera. I wysyła twórcom informacje, że właściciel konta X właśnie oglądał program Y.

Śledzenie przez sygnały dźwiękowe wykorzystała hiszpańska La Liga.
Wypuścili aplikację dla fanów piłki nożnej. Ale jedną z jej funkcji było nasłuchiwanie ukrytych sygnałów, miała też dostęp do GPS-a.

Kiedy ludzie oglądali mecz w barze, który nie kupił licencji do publicznego wyświetlania, apka to wychwytywała (odbierając ukryty dźwięk wpleciony w transmisję).
Wysyłała wtedy firmie współrzędne z GPS-a. A ta mogła później pognębić lokal karami pieniężnymi.

Innym głośnym przypadkiem była indyjska firma SilverPush.

Działali na bardzo podobnej zasadzie, ale ogólniejszej – zamiast stworzyć konkretną apkę, tworzyli wyspecjalizowane moduły (tak zwane SDK), które inni twórcy mogli za opłatą zintegrować ze swoimi apkami.
Moduły wyłapywały dźwięki o częstotliwości bliskiej 20 kHZ – czyli nie ultradźwięki, ale na granicy. Obszerny post na ten temat stworzył Niebezpiecznik w 2015 roku.

Apka wyszła też poza Indie. FTC, amerykańska agencja zajmująca się ochroną konsumentów, wystosowała w 2016 roku ostrzeżenie do 12 firm korzystających w swoich apkach z modułów od SilverPusha.

Firma istnieje do dziś i pozyskała niedawno finansowanie. Aktywnie się reklamują jako sposób na profilowanie ludzi we współczesnych czasach.

Tweet użytkownika SilverPush, napisany po angielsku i mówiący, że w związku z wycofywaniem ciasteczek (plików cookies) oferują nowe rozwiązanie do śledzenia użytkowników

Źródło: tweet SilverPush.
Gdyby link nie działał, to można zmienić nitter.cz na twitter.com.

W 2017 roku mieliśmy podobną aferkę z modułami od firmy Alphonso, które były dodawane do gier na urządzenia mobilne. Dziennikarze wyłapali ponad 250 prawdopodobnych przypadków apek, które je w sobie miały.

Łączenie urządzeń

Opisana wcześniej metoda działa niezależnie od rodzaju telewizora – o ile ma wystarczająco dobry głośnik, żeby nie zgubić tajnego sygnału.

Ale każdy telewizor otrzymuje zazwyczaj tę samą transmisję. Nie da się na przykład sprawić, żeby każdy użytkownik dostał coś innego niż reszta.
…Chyba że mamy współczesne Smart TV, zaś autor wścibskiej apki jest zarazem jego producentem. Albo się z nim dogadał.

Okazuje się, że każdy telewizor od tego producenta ma swój własny, unikalny identyfikator. I go emituje co pewien czas pod postacią niesłyszalnego dźwięku.

A my mamy na telefonie apkę od producenta, której już podaliśmy swoje prawdziwe dane. Co pewien czas apka prosi nas o nagranie ekranu telewizora; rzekomo po to, żeby go skalibrować. Kiedy to robimy, działa nam mikrofon. Apka odbiera po cichu ID telewizora.

W ten sposób producent dowiaduje się, że konkretny telewizor odpowiada konkretnej osobie. Jeśli dodatkowo wysyła on przez sieć historię oglądanych filmów, to producent może mieć w bazie:

Użytkownik Adam G. oglądał ostatnio filmy/klipy:
„Szybcy i wściekli”. „Is your phone listening to you? (YouTube)”. „Cute office worker gets [CENZURA] on a desk”.

W podobny sposób dałoby się ustalić, że dwie osoby były w jednym miejscu. Wystarczy, że jednocześnie korzystają ze wścibskiej apki, dając jej dostęp do mikrofonu.

Naciągane? Ale załóżmy na przykład, że to apka w stylu Pokemon Go. Popularna, więc wiele osób ją ma. Wymaga użycia kamery wraz z mikrofonem, żeby zobaczyć jakiegoś stworka w 3D, nałożonego na krajobraz. I generuje stworki w losowych momentach, dla wszystkich, przez co wielu graczy sięga po telefony w tym samym czasie.

Każda z apek nadaje ciche sygnały ze swoim unikalnym ID, a jednocześnie odbiera te z zewnątrz. Do producenta trafia informacja: „Gracze Anna K. oraz Sandra M. przebywają w tym samym miejscu”.
Nawet jeśli mają wyłączone GPS-y i pod innymi względami się pilnują.

Jeśli kogoś interesuje temat, to więcej informacji można znaleźć pod hasłem Ultrasonic Cross-Device Tracking, albo w skrócie uXdt.
Pewien post z forum Hacker News zawiera z kolei obszerną listę firm i projektów związanych z biznesem ultradźwiękowym.

Śledzenie lokalizacji

Wyżej mieliśmy przypadek sygnału unikalnego na poziomie urządzeń – elektroniki konsumenckiej.
Ale źródła tajnych sygnałów w żadnym razie nie muszą być duże. Mogą to być również malutkie nadajniki, bezużyteczne dla konsumentów. Ale przydatne dla wścibskich firm.

Jeśli każdy nadajnik wysyła nieco inny sygnał, to firma mogłaby nakupić spory ich zapas, żeby je rozstawić w różnych miejscach.
Gdy zbliżymy się do któregoś z nich z włączonym mikrofonem i zainstalowaną wścibską apką, to odbierze ona unikalny sygnał nadajnika. Jej twórca – bez naszej wiedzy – dowie się, w jakim miejscu byliśmy. Nawet jeśli wyłączyliśmy GPS-a, Bluetooth, Wi-Fi.

Luźna myśl bez dowodów: gdyby nasze urządzenie miało głośnik zdolny do wytwarzania dźwięków wysokiej częstotliwości, to mogłoby to działać w drugą stronę. To nasze urządzenie nadaje, zaś mikroszpieg odbiera. Metoda raczej mocno zależna od sprzętu, ale nie wymagałaby pozwolenia na dostęp do mikrofonu.

Więcej informacji na ten temat można znaleźć, szukając pod hasłem audio beacon albo ultrasonic beacon. Sam beacon to zresztą ogólne pojęcie i dotyczy nie tylko dźwięku, ale też choćby małych nadajników wykorzystujących Bluetooth.

Deanonimizacja

Jakiś użytkownik przegląda strony internetowe i nie chce, żeby ktoś ustalił jego tożsamość. Używa przeglądarki anonimizującej, jak Tor Browser.

Ale może wpaść, jeśli na telefonie ma apkę od kogoś wścibskiego, zainteresowanego jego tożsamością. I odwiedza stronę internetową naszykowaną przez tego samego złodupca.

Strony mogą odtwarzać pliki wideo i dźwięk, więc nie budzi to podejrzeń naszego użytkownika. Ale apka na jego telefonie odbiera ten sygnał i wysyła wścibskim ludziom dokładniejsze informacje.

„Cel odwiedził stronę-pułapkę. Przesyłam identyfikator jego telefonu oraz dane odczytane z plików”.

Przyznam, że to moim zdaniem nieco naciągane zagrożenie – jeśli ktoś tak się troszczy o anonimowość, to raczej nie instalowałby apki z niepewnego źródła. A tym bardziej nie pozwalał jej na dostęp do mikrofonu. A gdyby już pozwolił, to zaalarmowałaby go kropka ostrzegająca przed nagrywaniem.

No ale nasz artykuł naukowy jest z 2017 roku. Załóżmy, że w czasach dyskretnego nagrywania coś takiego byłoby bardziej realne.

Jak się chronić

Wszystkie metody ochrony – i przed nagrywaniem naszych słów, i przed niesłyszalnymi dźwiękami – opierają się na najzwyklejszym w świecie wyłączeniu mikrofonu. Gdy go nie ma albo jest niedostępny dla programów, to jesteśmy bezpieczeni :smile:

Asystenci głosowi

Asystentów – i telefonicznych, i domowych – radziłbym po prostu nie używać. Żadnego Echa czy Alexy. Szczypta wygody zyskanej dzięki takim gadżetom moim zdaniem całkiem blednie wobec ryzyka. A technologiczny hurraoptymizm zostawmy sekcie z Doliny Krzemowej.

Jeśli raczej się ich nie pozbędziemy (bo na przykład ktoś inny z rodziny je lubi), to można chociaż kontrolować, co zbierają. Albo usunąć historię wydawanych poleceń, żeby ktoś się do nich nie dobrał.

Jeśli jest taka możliwość, można też zabezpieczyć asystenta, ustawiając mu własne, nietypowe słowo aktywujące (tu artykuł o tym, że dawał ją Bixby).

Jeśli ktoś bardzo by chciał mieć automatykę domową, sterowane głosem światła czy termostaty – ale bez podsłuchu w pakiecie – to można rozejrzeć się za alternatywami open source. Istnieją zapewne firmy oferujące montaż takiej elektroniki.

Słowo-klucz do wyszukiwań na forach angielskich: on-device albo local. Oznacza, że dane byłyby przetwarzane tylko na urządzeniu i nie leciały w świat. Mielibyśmy obieg zamknięty na poziomie naszego domu.

Telefony i komputery

Na telefonach najprostszym rozwiązaniem jest wyłączenie aplikacjom pozwolenia na dostęp do mikrofonu. Wszystkim. Zostawiając co najwyżej ustawienie kompromisowe Tylko podczas korzystania systemowej apce Aparat.
Chcąc wysłać filmik z mniej zaufanej apki, jak Messenger, nagrywajmy go najpierw przez systemową apkę. A potem wybierajmy do wysłania wcześniej nagrany plik.

Osoby szczególnie wyczulone na punkcie prywatności – jak grono narażone na Pegasusa albo nieufające systemowi na telefonie – mogłyby teoretycznie skorzystać z urządzenia zawierającego fizyczny wyłącznik mikrofonu. On mógłby nas ochronić nawet w przypadku całkowitego przejęcia naszego urządzenia.

Ale – i to bardzo ważne! – przez wyłącznik fizyczny mam na myśli taki, który przerywa obwód elektryczny. Przez co do mikrofonu nie dopływa prąd i zwyczajnie nie ma prawa działać.

Jeśli mamy na laptopie kombinację klawiszy, po wciśnięciu której pojawia się komunikat o wyłączonym mikrofonie… To nie mamy niestety gwarancji, że faktycznie został wyłączony.
Ten klawisz może po prostu wysyłać komputerowi sygnał, że czas nałożyć blokadę cyfrową. Ale gdyby ten był przejęty, to mógłby zignorować prośbę o blokowanie. A nam jedynie wyświetlić fałszywą informację, że blokada działa.

W wyłączniki z prawdziwego zdarzenia są wyposażone chociażby laptopy od Apple (po zamknięciu ekranu), smartfony i laptopy firmy Purism oraz przystępniejszy cenowo smartfon Pinephone.

Uprzedzam jednak, że telefony na bazie Linuksa nie są urządzeniami dla każdego, a wiele mainstreamowych rzeczy by na nich nie działało. Najlepiej doczytać o nich na własną rękę.

A jeśli nie chcemy kupować żadnych niszowych urządzeń, nie ufamy mikrofonowi, a do tego nie jesteśmy biegli w sprawach technicznych i nie umiemy sprawdzić, czy nie nagrywa?

Pozostaje wtedy tajemne, niebywałe, przystępne rozwiązanie – kiedy potrzebujemy prywatności, to nie bierzmy ze sobą smartfona ani innej elektroniki konsumenckiej!
Korzyść bonusowa – walka z cyfrowym nałogiem :smile: