Цифровой след: Как много интернет знает о нас?

В издательстве «Альпина Паблишер» вышла книга «Форма жизни № 4». Ее автор — визионер, инженер, изобретатель, бывший вице-президент Kaspersky Lab и бионик, живущий с чипом под кожей, Евгений Черешнев — рассказывает о том, как технологии меняют человечество и какой цифровой след мы оставляем. The Village публикует отрывок из главы о том, почему анонимности в интернете не существует.

Глава из книги повествует о российском кибер-пространстве, однако многое из описанного так или иначе применимо и к общемировой практике.

Миф об анонимизации информации

Очень многие компании имеют данные о нас. И я не первый, кто привлекает внимание к проблеме, — несколько очень крупных хакерских атак, увенчавшихся успехом (взлом базы данных Sony, учетных записей Skype, пользовательской информации Yahoo и так далее), побудили общественность задаться довольно неприятными вопросами и обращаться в суд, ведь от таких атак (попадания их поведенческой, личной и финансовой информации не в те руки) страдают живые люди. Многие компании отреагировали усилением мер безопасности, в частности, изменив процедуры хранения данных с персонализированного формата на анонимизированный. Грубо говоря, это означает, что имя и уникальные идентификаторы пользователя хранятся отдельно от данных о его поведении. Соединить эти базы может только сама компания-владелец и только в рамках жесткой политики безопасности. А если базу поведения, интересов и прочего утащит хакер, он не сможет сказать, чье конкретно это поведение, ибо коробочка с информацией подписана совершенно непонятным номером, который ничего не значит, если не знать «ключика». А он хранится в зайце, а в зайце — утка, а в утке — яйцо, а яйцо принадлежит высокооплачиваемому сисадмину компании.

Но вот какая штука… Это миф. Нет такой вещи, как полностью анонимные или анонимизированные данные (еще их часто называют деперсонализированными, то есть лишенными реальных идентификаторов людей). Приведу вам две аналогии. Представьте, что перед вами огромная пачка загранпаспортов реальных людей. Это очень персональные данные — они содержат имя, фамилию, год рождения и историю перемещений владельца через границы. Когда кто-то говорит «анонимизация», в примере с паспортами речь идет о том, что у всех них оторваны первые страницы с данными, которые лежат отдельно от самих книжечек. В итоге, если случайный человек возьмет из кучки паспорт без первой страницы, он сможет увидеть, что этот кто-то (чьи имя, фамилия, фото и дата рождения неизвестны) пересекал границы Турции, Германии и США в такие-то даты и через такие-то КПП (каждый крупный аэропорт или даже пограничный пункт в лихом захолустье имеют уникальные идентификаторы, вы можете их сами увидеть на печатях). Если другой возьмет из кучки первых страниц листок, он увидит фото Хана Соло, но не сможет ничего узнать о его истории перемещений.

Есть куда более персонализированные базы данных — например, история покупок на сайте Y с привязанным к ним IP клиента, а то и его телефоном

Но даже в этом примитивном примере понятно, что, если у вас есть доступ к базе данных пересечений границ вышеназванных стран и любой лист из двух кучек, вы сможете «склеить» информацию и привязать уникальную историю перемещений (штампов) к конкретному лицу. Безусловно, это очень грубый пример. Но он поможет вам понять, что в интернете, где количество баз данных измеряется десятками тысяч, личная и поведенческая информация дублируются, а люди используют одни и те же идентификаторы (адрес почты, номер телефона) и пароли к разным сайтам, сопоставить информацию и составить полный, детальный профиль человека с его реальными именем, фамилией, адресом и другими данными не составляет никакого труда.

Сравнив два цифровых следа, полученных из абсолютно разных источников, всегда можно сделать атрибуцию, даже если с технической точки зрения инженеры поработали на славу. Вот еще один пример: представьте себе, что в ваших руках база данных 10 тысяч человек, состоящая из 100 их любимых фильмов, полученная с сайта X. Имена и фамилии этих людей и их логины вам неизвестны, база, так сказать, анонимна и вообще неизвестно, откуда получена. На первый взгляд, информация анонимная, совершенно не уникальная: многим людям нравятся «Титаник» и «Терминатор», это никакой не секрет, и как базу привязать к конкретным людям, неясно. Но давайте немного ее «причешем»? Что, если взять список топ-100 фильмов с IMDb и удалить их из всех профилей базы? А если удалить список 200 самых популярных фильмов? У вас на руках окажется база 10 тысяч анонимных людей, но их списки внезапно перестанут быть одинаковыми; если убрать кассовые фильмы, останутся довольно уникальные — кому-то нравится нуар, в чьем-то списке окажутся фильмы только на русском или китайском, а кто-то «спалился» на особой любви к Эмиру Кустурице. Теперь вы знаете, что искать.

Если вы опытный оперативник, хакер или просто плохой парень с целью и дипломом software-инженера, вам не составит никакого труда написать программу-бот, которая будет искать для вас в Сети все данные людей с четким списком уникальных интересов из списка. С очень высокой долей вероятности вы как минимум получите несколько учетных записей в социальных сетях и на сайтах с обзорами фильмов — как правило, люди там своих интересов не скрывают, а в ряде случаев каждый просмотренный фильм и вовсе добавляется к публичному профилю, чтобы «обмениваться информацией с друзьями». Как результат, из списка 10 тысяч анонимных зрителей вы внезапно получаете базу из примерно 8 тысяч конкретных людей с живыми профилями в соцсетях. Эту информацию вы можете сопоставить с брокерскими данными и информацией, например, из ранее похищенных баз данных, которые легко можно найти в Сети (хакеры так и делают), и рано или поздно вы найдете совпадение по адресу электронной почты и IP, а это дает потенциальный доступ ко всем учетным записям человека, поиску всех его активностей в Сети с этим ящиком и никнеймом и месту проживания (если человек свой IP не маскирует, о чем мы, опять же, поговорим позже).

И это только один из примеров. Есть куда более персонализированные базы данных — например, история покупок на сайте Y с привязанным к ним IP клиента, а то и его телефоном. А телефон равно реальное имя. Где тут приватность? Из безымянного списка любителей кино вы только что получили список граждан конкретных стран с их номерами телефонов (следовательно, потенциально и паспортными данными) и кредитных карт (если добрались до ранее украденной базы уровня Sony).

«Пробивные» услуги

Нашумевшие расследования интернет-издания Bellingcat (с подробными рассказами расследователя Bellingcat Христо Грозева о том, какие данные он покупал) и освещавшиеся в СМИ уголовные дела, возбужденные по фактам продажи конфиденциальной информации из различных баз, привлекли внимание широкой общественности к отечественному рынку так называемого пробива. Различные сайты, форумы (в том числе в даркнете) предлагают «быстро, недорого, конфиденциально» снабдить вас сведениями из различных баз данных (банковских, сотовых операторов, госорганов).

Существует целый ряд Telegram-ботов для «пробива» и поиска информации, например, бесплатный Telegram-бот GetContact, позволяющий узнать, как нужный номер записан в списке контактов других людей. Telegram-боты Himera, «Глаз бога», «Архангел» и тому подобные предоставляют доступ уже к гораздо более серьезной информации. Заплатив довольно скромные деньги, можно получить достаточно подробную информацию из банковских баз: информацию о счетах, остатках на них средств и данных владельцев, выписки по счету или карте физлица.

Самым распространенным предложением является «пробив» баз данных сотовых операторов: сведения о владельце номера; номер абонента по имеющимся у вас фамилии, имени, отчеству и дате рождения; детализация звонков и SMS, в том числе и с указанием базовых станций; определение местоположения телефона на указанный момент времени («вспышка»). Государственные базы данных — крупнейшие агрегаторы персональных данных граждан.
— «Роспаспорт» (паспорта РФ, загранпаспорта, адрес регистрации, сведения о браке, фото);
— «Магистраль» (купленные по паспортам билеты: авиа-, железнодорожные, на автобусы и пассажирские суда);
— «Рубеж» (сведения о пересечении границы, списки пассажиров рейсов по аэропортам РФ, список пассажиров поезда по вокзалам дальнего следования);
— ГИБДД (сведения о ДТП, штрафах, VIN-коды и номера транспортных средств), Федеральная информационная система ГИБДД (данные водительского удостоверения, регистрации автомобилей, сведения о правонарушениях);
— ФНС (сведения об имуществе, счетах, трудоустройстве, доходах);
— базы данных бюро кредитных историй, таких как Национальное бюро кредитных историй (НБКИ), Объединенное кредитное бюро (ОКБ), «Эквифакс»;
— «Поток» (фото автомобилей со стационарных камер).

На специализированных форумах регулярно появляются объявления об услугах доступа к данным «Единого центра хранения и обработки данных» (системе, которая в течение пяти дней хранит записи камер московской системы видеонаблюдения). Как мы видим, сведя воедино сведения из разнородных баз, можно получить достаточно информации для деанонимизации (или же отслеживания интересующих людей).

Попытки что-либо анонимизировать может сорвать огромное количество факторов. Чтобы наглядно это увидеть, давайте проведем мысленный эксперимент под названием «Пятый глаз». Я его специально придумал для одного из своих корпоративных выступлений, но, как показала практика, он частенько вызывает у сотрудников панику, поэтому я редко его использую.

Представьте себе следующую ситуацию: вы оказываетесь в комнате с дюжиной коллег по работе, садитесь на стулья, расставленные кругом, и смотрите друг на друга — в общем, словно на собрании анонимных алкоголиков. У каждого в руках обычные желтые офисные стикеры и ручка. Посмотрите на человека слева, возьмите стикер и напишите то, что вы о нем знаете или видите, — например, если слева сидит ваш друг Олег и вы точно знаете, что он любит рыбалку и изменял жене, напишите на двух стикерах «любит рыбалку» и «изменял жене» и наклейте ему на лоб. Таким образом, все, кто сидит в кругу, даже не зная Олега, могут уверенно сказать, что он любит рыбалку и изменял жене — это написано у него на лбу. Олег пишет что-то про вас (скажем, что вы дико боитесь воды, ибо вы ему это однажды рассказали в состоянии крепкого подпития). Теперь это знают все.

Если каждый из людей, находящихся в комнате, сделает это с каждым и будет продолжать это делать, пока у него не иссякнут знания, уже через несколько часов в комнате будут сидеть наглухо залепленные крайне детальными стикерами тела. Если в комнату войдет новый человек, не знакомый ни с кем из присутствующих, он сможет про каждого рассказать больше, чем вы сами о себе знаете, ибо он видит всю совокупность знаний о вас, оставленную многими людьми, а не только то, что вы сами о себе знаете или готовы рассказать. Он видит ваши секреты, привычки, имя, пол, сексуальную ориентацию, имена жены и любовницы, первой собаки и даже тот факт, что у вас смертельная аллергия на орешки кешью.

У каждого сайта свое «досье» о вас. В кеш-памяти вашего компьютера их, вероятнее всего, сейчас десятки тысяч

Именно так работают интернет-агрегаторы, трекеры и брокеры данных. Как только вы заходите на какой-нибудь сайт, его сервисы аналитики (причем как «заводские» вроде Google Analytics, так и кастомные — многие сервисы делают дополнительный ручной трекинг под свои узкие задачи) считывают информацию о вас: все, что им может отдать ваш компьютер, — какой он, (мобильный или десктоп), какая операционная система (тип, версия, язык), из какого браузера вы посещаете ресурс (тип, версия, язык), из какой вы страны, какой у вас IP-адрес (следовательно, кто ваш провайдер, у которого есть ваш паспорт, — при фингерпринтинге этот параметр используется не всеми трекерами, так как IP пользователя может часто меняться), и еще много чего, и создает уникальный идентификатор на вашем компьютере, cookie, метку, являющуюся личным номером, по которому сайт вас будет опознавать у себя в базе, и связанную с ним запись у себя в базе данных, по которой он будет вас пытаться опознать, если вы cookie сотрете.

Когда на вашу машину поселили «метку» (cookie) — отныне и впредь все, что вы будете делать на сайте (заходить в свою учетную запись, покупать что-то, пользоваться службой поддержки или даже просто двигать мышкой), он будет записывать в эти «матрешечки» и знать все ваши типовые телодвижения. Если вы удалите базу cookie у себя на компьютере, с точки зрения трекинга ничего не изменится: ведь когда вы выйдете в Сеть с того же IP-адреса, сайт, у которого информация о вас еще осталась (ведь он-то ничего не удалял), сможет сопоставить ваш идентификатор с базой сигнатур, найти сначала похожих на вас, а потом конкретно вас, моментально обклеить вас стикерами с надписями (как в примере с комнатой), а заодно и перезаписать новую cookie в память вашего компьютера на место той, что вы стерли.

У каждого сайта свое «досье» о вас. В кеш-памяти вашего компьютера их, вероятнее всего, сейчас десятки тысяч, и в них сохранена вся активность, авторизации на сайтах и так далее. (К слову, если хакер украдет ваш цифровой след — IP-адрес, эмулирует тип ОС, окружение и так далее и украдет у вас cookie, в которой есть ваша комбинация «логин/пароль/номер телефона», — он сможет зайти, например, в ваш личный кабинет интернет-магазина без пароля, ведь тот примет хакера за вас — он будет видеть его ровно так, как вас, — это не так просто, но не невозможно.)

В современном мире cookie эволюционировали до того, что в определенном смысле научились общаться друг с другом и обмениваться информацией. Не напрямую, ибо сами они ничего делать не умеют и привязаны к создавшим их сайтам, а через серверы «хозяина», например, «Яндекса» или другого автора трекинговой системы. Выглядит это так: предположим, вы зашли на сайт games. com и видите там кнопку «Like» от Facebook. Games.com при заходе записывает на ваш компьютер метку, чтобы отличать вас от других посетителей. Но в это же время кнопка «Like» от Facebook рапортует хозяину, что на сайт games.com пришел какой-то чувак, которому сайт уже дал идентификатор, а раз он дал, то и Facebook надо подсуетиться! Все, что нужно сделать, — это записать ее вот в этот компьютер (дает Facebook адрес хранилища).

Просто бродя по сети, вы постоянно оставляете следы, ведь каждый сайт пишет свои идентификаторы в память вашего компьютера и начинает вести ваше досье у себя

Что делает Facebook? Он, во-первых, смотрит свою собственную сессию с вами и проверяет, под каким именем вы сейчас авторизованы непосредственно в Facebook. Во-вторых, сюрприз-сюрприз, он моментально выясняет, что зовут вас Иван Иванов (плюс полная анкета) и что, ага, вы, оказывается, ходите на games.com — о чем он делает запись в вашем профиле и отправляет на ваш компьютер через кнопку (которая является трекером) свою метку — cookie.

В итоге вы, казалось бы, просто зашли на games.com, но теперь об этом знает Facebook (хотя кнопку «Like» вы не трогали»), а games.com знает, что вы не просто анонимный ID, а именно Иван Иванов (со всеми вытекающими возможностями матчинга). И вот так, просто бродя по Сети, вы постоянно оставляете следы, ведь каждый сайт пишет свои идентификаторы в память вашего компьютера и начинает вести ваше досье у себя, а чтобы работа шла эффективнее, сайты постоянно обобщают и консолидируют информацию о вас на уровне трекеров, делая ваше досье все более пухлым.

В итоге ваш цифровой след в Сети растет как на дрожжах: каждое новое движение, текст, введенный пароль, выход в Сеть — все это фиксируется и подписывается — когда, при каких обстоятельствах это было сделано — все, что можно записать (причем не только в cookie — чаще просто в базы данных). Лет десять назад cookie можно было время от времени удалять, тем самым «обнуляя» знание интернета о вас. К сожалению, сегодня это сделать крайне тяжело: многие cookie неудаляемы (evercookie); когда сайт или сервис создает их на вашем компьютере, он делает не одну метку, а несколько (скажем, 10) в других местах, в которые можно что-то записать на вашем компьютере, и эти 10 будут «страховать» основную cookie при удалении, а при заходе на сайт скрипт проверит все свои «заначки» на вашем компьютере и восстановит метку из одной из копий (но вам об этом никто не рассказывает). Никакой магии!

Есть даже целый класс cookie, который так и называется zombie cookie — возвращающиеся аки зомби. Причем это происходит почти с каждым и каждый день — редкий сайт сегодня не размещает рекламы или кнопок социальных сетей. Все баннерные и социальные сети в реальности представляют собой не просто объявления — это трекеры, которые сопоставляют информацию о вас и всех ваших перемещениях по Сети, поскольку они видят вас в разных местах и все записывают, а когда вы пытаетесь очистить историю, восстанавливают ее из копий. На серверах историю не очистить. Сайты могут узнать, откуда приходят посетители, благодаря UТМметкам (Urchin Tracking Module) — кускам кода, которые встраиваются в ссылки.

Когда человек авторизуется в Wi-Fi-сети, он «представляется» роутеру, и в этот самый момент вы уже не аноним, что бы вы ни делали

В имейл-рассылках, что приходят на почту, часто встроены невидимые пиксели — картинки размером всего в 1 точку, которые вам не видны, но сам факт их открытия виден следящей стороне — так рекламодатель узнает, открывали вы его имейл или баннер или нет. Причем на каждом шагу есть риск полной деанонимизации. Собственно, чтобы остаться анонимным, надо очень сильно потрудиться — в эпоху, когда мы выходим в Сеть по большей части с мобильных устройств (например, в Китае доля мобильного трафика составляет 98 %), у каждого из них есть привязка к номеру телефона, GPS-координате, а следовательно, к паспортным данным, ибо без государственного идентификатора (паспорта, прав) и кредитки сим-карту вам редко где продадут.

А начать массово получать идентификаторы устройств очень просто — достаточно поставить на улице, в своем офисном центре или сети кафе «бесплатный» Wi-Fi. Когда человек авторизуется в Wi-Fi-сети, он «представляется» роутеру, отдавая уникальные идентификаторы, а в ряде случаев сами провайдеры под любым предлогом просят ввести номер телефона. И в этот самый момент вы уже не аноним, что бы вы ни делали. Какая, простите, анонимизация, если сопоставление баз данных играючи ее устраняет?

Разделы

Книга неделиЦифровой след: Как много интернет знает о нас?

Миф об анонимизации информации

«Пробивные» услуги

Рассказать друзьям

Другие статьи по темам

Комментарии

Подписаться на The Village Казахстан