Информацию «анонимного» веб-серфинга легко получить

Журналист и ученый-аналитик получили данные трёх миллионов пользователей, создав поддельную маркетинговую компанию и смогли деанонимизировать многих из них

Автор: Алекс Херн

Порно предпочтения одного судьи и лекарства, используемые немецким депутатом, были среди личных данных, найденных двумя немецкими исследователями, которые приобрели «анонимную» информацию о более чем трёх миллионах граждан Германии.

«Что бы вы ощутили» — задаётся вопросом Свеа Эккерт — «если бы кто-то появился у вас в дверях, заявив: «Эй, у меня есть вся твоя история интернет-просмотров — каждый день, каждый час, каждая минута, каждый клик, который вы делали в Интернете за последний месяц? Как такое получилось? Какой-то теневой хакер? Нет. Всё намного проще: эти данные можно просто купить».

Эккерт, по профессии журналистка, наняла учёного-исследователя Андреаса Деуса, дабы получить персональные данные пользователей и посмотреть, что они могут извлечь из их массива.

Представляя свои выводы на конференции по взлому Def Con в Лас-Вегасе, пара рассказала, как им удалось получить базу данных, содержащую 3 миллиарда URL-адресов от трёх миллионов немецких пользователей, которые посетили 9 миллионов различных сайтов. Некоторые из пулов данных были небольшими, всего лишь несколько десятков страниц, которые посещали в течение 30 дней, в то время как другие включали в себя десятки тысяч пунктов: полный отчёт о жизни в Интернете.

Получение информации было даже проще, чем покупка. Пара создала фальшивую маркетинговую компанию, с собственным сайтом, страницей LinkedIn для своего исполнительного директора и даже сайтом карьеры, который включал в себя несколько приложений от других маркетологов, обманутых компанией.

Они сделали сайт с «множеством хороших фотографий и некоторых маркетинговых моментов» утверждая, что разработали алгоритм машинного обучения, который сможет более эффективно заниматься маркетингом, но только если он пройдёт обучение с помощью большого количества данных.

«Мы написали около сотне компаний, и спросили, можем ли мы получить сырые данные, поток кликов из жизни людей». Это потребовало немного больше времени, чем следовало бы, рассказывает Эккерт, но только потому, что мы специально искали немецких пользователей. «Мы часто слышали: «Данные? Это не проблема. Но у нас их нет для Германии, есть только для США и Великобритании» — говорит девушка.

Информация, которую в конечном итоге удалось достать, была получена бесплатно от брокера данных, который был готов с помощью них протестировать гипотетическую рекламную платформу AI. И хотя эта информация представляла собой номинально анонимный набор, вскоре оказалось легко деанонимизировать многих пользователей.

Деус описал некоторые способы, с помощью которых хитрый брокер может найти человека в инфошуме из длинного списка URL-адресов и временных меток. Некоторые вещи вычислить очень легко: например, каждый, кто посещает собственную страницу аналитики в Twitter, получает URL-адрес в своей учётной записи, в которой содержится имя пользователя, и доступно только для него. Найдите этот URL-адрес, и вы сразу свяжете анонимные данные с фактическим человеком. Подобный трюк работает и для немецкого сайта социальной сети Xing.

Для других пользователей более вероятностный подход может деанонимизировать их. Например, всего 10 URL-адресов может быть достаточно, чтобы однозначно идентифицировать кого-то — подумайте, например, о том, как мало людей в вашей компании предпочитает определённый банк, хобби, газету и мобильный телефон. Создавая «отпечатки пальцев» из данных, можно сравнить их с другими, более открытыми, источниками того, что посетили люди, например, социальными медиа-аккаунтами или публичными плейлистами YouTube.

Аналогичная стратегия была использована в 2008 году, говорит Деус, чтобы деанионимизировать набор рейтингов, опубликованных Netflix, дабы помочь компьютерным учёным улучшить алгоритм рекомендаций: сравнивая «анонимные» рейтинги фильмов с общественными профилями в IMDB, исследователи смогли разоблачить ряд пользователей — в том числе одну женщину, скрытую лесбиянку, которая затем подала в суд на Netflix за нарушение конфиденциальности.

Другое обнаружение через сбор данных возможно через Google Translate, в котором хранится текст каждого запроса, помещённого в URL-адрес. Исходя из этого, исследователи смогли раскрыть оперативные подробности о немецком расследовании киберпреступлений, поскольку детектив занимался переводом просьб об оказании помощи иностранным полицейским силам.

Так откуда взялись эти данные? Благодаря нескольким плагинам для браузеров, причём основным стал инструмент «безопасного серфинга» Web of Trust. После того, как Деус и Эккерт опубликовали свои результаты, плагин изменил свою политику конфиденциальности, заявив, что он действительно продаёт данные, сохраняя анонимность пользователей. «Но мы знаем, что оставаться анонимным в такой ситуации почти невозможно» — говорит Деус.

Оригинал: TheGuardian

Похожие Записи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Последние <span>истории</span>

Поиск описаний функциональности, введя ключевое слово и нажмите enter, чтобы начать поиск.