В конце марта в закон «Об информации» предложили внести очередные изменения. На этот раз речь шла о регулировании рекомендательных систем, которые формируют выдачу под каждого пользователя. Они работают везде: от поисковика Яндекса до маркетплейсов. Правильно ли истолковали предложение, какие скрытые проблемы не учли авторы и насколько идея реализуема технически?
Что произошло
«Госдуме предложили взять под контроль рекомендации соцсетей», «власти взялись за рекомендательные сервисы» — так подавали новость СМИ. Как всё было на самом деле: Ассоциации юристов России подготовила и отправила письмо в Думу, Совет Федерации и Минцифры. Суть предложения: обязать российские сайты с высокой посещаемостью объяснять пользователям принципы работы рекомендательных систем на этих сайтах, дать возможность отключать эти системы и заниматься мониторингом того, что продвигается через рекомендательные алгоритмы.
Главные пункты:
- Закрепить законодательно понятия «рекомендательный сервис» и «оператор рекомендательного сервиса».
- Применять требование к площадкам, обрабатывающим данные более 500 000 российских пользователей или имеющим посещаемость более 100 000 пользователей.
- Обязать площадки давать пользователям возможность отключать рекомендательные алгоритмы, сохраняя доступность самого сервиса.
- Обязать площадки пояснять пользователям принципы работы рекомендательных сервисов.
- Проводить независимый аудит алгоритмов таких сервисов, выявлять аномалии и противоречия законодательству.
- Ввести контроль за использованием рекомендательных алгоритмов для продвижения незаконного контента.
Предложение пока не рассматривали, и единственное, что точно известно — в Госдуме подтвердили, что письмо получено. Насколько реально выполнить эти пункты с технической точки зрения? Для этого нужно понимать, как работают рекомендательные системы.
Принципы работы рекомендательных систем
В основе работы рекомендательных систем лежат данные об объекте рекомендаций и пользователе. Подходы и формулы, ИИ, машинное обучение — всё это в конечном счете опирается на данные.
Например, что знает онлайн-кинотеатр о фильме «Молчание ягнят»? Что по жанру это детективный триллер с элементами ужаса. Что там играет Энтони Хопкинс и Джоди Фостер. Что у фильма есть приквелы, продолжения и фильмы, связанные общей вселенной. Возможно, сайт выделяет какие-то специфичные теги, например «фильмы про маньяков» или «фильмы с харизматичным злодеем». На основе этого рекомендательная система сайта может сформировать подборку рекомендаций, опираясь только на сам фильм:
С другой стороны, есть конкретный пользователь. Данные о нем — это, с одной стороны, его геолокация, пол, возраст и другие «постоянные характеристики», а с другой — история действий на сайте, просмотренные страницы, написанные комментарии, купленные товары. Эти данные постоянно обновляются. Сайт использует и первый, и второй тип данных, чтобы персонализировать рекомендации под конкретного пользователя. Например, если известно, что человеку помимо «Молчания ягнят» понравился «Настоящий детектив» — система будет советовать больше фильмов про расследования по делам маньяков-убийц. А если вместе с историей про Ганнибала Лектера пользователь за последний месяц посмотрел еще 5 фильмов с Энтони Хопкинсом, посоветует другие фильмы с участием актера.
Рекомендательные системы использует те данные, которые сайт собирает и обрабатывает, следуя закону «О защите персональных данных».
Такие системы сегодня используются повсеместно, примеры площадок и кейсы использования:
Поисковые системы применяют рекомендации, чтобы персонализировать выдачу и, например, по запросу «бургерная» показывать сайты бургерных только в вашем городе, при этом сортируя их в порядке удаленности от вашей текущей геопозиции.
Маркетплейсы и интернет-магазины — чтобы рекомендовать комплектные товары (набор лезвий к бритве) и делать подборки на основе персональных предпочтений пользователя.
Новостные сайты — чтобы обеспечивать большую глубину просмотра, предлагая новости, дополняющие или пересекающиеся с текущей.
Социальные сети — чтобы рекомендовать пользователю возможных друзей и сообщества по его интересам, а также формировать алгоритмическую ленту, где все события сортируются по «важности» для пользователя и, например, отфильтровываются посты людей и сообществ, с которыми пользователь редко взаимодействует.
Музыкальные, видеоплатформы, «читалки» электронных книг — чтобы удовлетворить запрос пользователя на новый контент, который ему понравится.
Фактически, любой сайт, который имеет достаточно много трафика, чтобы использовать данные о пользователях и их действиях, и имеющий «каталог продуктов» из достаточно большого числа позиций, чтобы рекомендовать одно к другому, может использовать системы рекомендаций. Это могут быть сайты застройщиков, банков, страховых компаний или онлайн-школ.
Чем потенциально опасны рекомендательные системы
Одна из главных проблем, которую обсуждают с момента появления первых алгоритмов рекомендаций — это так называемый Filter bubble. То, чем интересуется пользователь, влияет на его поисковую выдачу и новостную ленту, соответственно, он попадает в ловушку, начинает видеть только ту информацию, которой однажды поинтересовался и которую теперь ему поставляет рекомендательная система. Не может выбраться из «пузыря» и таким образом пропускает что-то важное или потенциально ему интересное.
Такое явление можно наблюдать, например, на YouTube, Яндекс.Дзене, в видеоленте Facebook. Алгоритмы этих сервисов очень быстро обучаются и загоняют пользователя внутрь «информационного пузыря».
Чтобы изменить выдачу рекомендаций, пользователю придется сознательно «переобучать» систему: вручную искать и смотреть контент, который отличается от того, что есть сейчас в его ленте. Однако это не так просто: тот же YouTube, будучи продуктом Google, использует данные других подчиненных систем: например, ваши подписки и лайки в Instagram, ленту Facebook, поисковые запросы в Google. Чтобы выбраться из ловушки, вам фактически нужно будет сменить интересы.
Вероятно, причиной появления письма от Ассоциации юристов стали будущие выборы в Государственную думу: алгоритмическая лента социальных сетей, фильтрующая информацию, станет препятствием для решения политических задач. Это, конечно, не единственная причина: сейчас рекомендательные системы работают автономно и слабо модерируются — так в ленту социальных сетей несовершеннолетних попадает контент 18+ или реклама запрещенных веществ.
Можно ли реализовать предложения юристов и какие у этого могут быть последствия
Зачастую рекомендательные системы — это third-party software. Многие сайты пользуются рекомендательными движками, созданными другими компаниями, только единицы используют собственные разработки. Таким образом, компании, на которых будет распространяться требование регулировать работу рекомендаций, окажутся в патовой ситуации: они будут вынуждены либо договариваться с провайдером программного решения, либо отказываться от него, либо готовиться к санкциям Роскомнадзора.
Но наибольшие сомнение вызывает даже не это, а предложение «предоставить пользователям возможность отключения алгоритмов рекомендаций, сохраняя доступность самого сервиса».
С одной стороны, технически это реализуемо и, более того, уже реализовано на ряде сайтов. Например, поисковики Google и Яндекс дают возможность отключать персональные результаты, очищать историю просмотров, учет геолокации.
С другой стороны, некоторые сервисы построены вокруг персонализации и рекомендаций, например, лента Яндекс.Дзена полностью алгоритмическая, а отдельные страницы маркетплейсов или онлайн-кинотеатров состоят целиком из персональных рекомендаций.
Отключение рекомендаций для таких сайтов — это потеря прибыли, а для их пользователей снижение качества сервиса и потеря важной функциональности. Spotify или Яндекс.Музыка — это только на половину плеер, вторая половина предоставляемого сервиса — как раз рекомендации по интересам, возможность серфить и открывать для себя новую музыку.
Конечно, в предложении юристов не идет речи об обязательном отключении блоков рекомендаций «сверху», сам пользователь должен будет выбирать, отключить или оставить. В этом случае важным пунктом будет работа с просвещением пользователей: им нужно будет доступно объяснить, почему он видит именно это в блоке рекомендаций и что будет, если он рекомендации отключит.
Подход с возможностью влиять на машинные алгоритмы сам по себе — более, чем разумен. Пользователь сможет исключать из рекомендаций неинтересные ему товары, фильмы, треки и так далее, по принципу, как это реализовано в рекламных сетях.
Также проблема самого предложения сейчас в том, что оно обобщает все сайты с высокой посещаемостью. При этом последствия от отключения персональной ленты в социальной сети, на новостном сайте и на сайте интернет-магазина — совершенно разные. Последний, например, вряд ли может манипулировать общественным мнением или разжигать вражду, он рекомендует товары, а не журналистские расследования.
Если всё это и превратится в законопроект, то нужна будет его более глубокая проработка с пониманием технической стороны вопроса. А сайты, к которым применят закон, нужно будет разделить на несколько групп и для каждой разработать свои рекомендации и требования. В текущем виде предложения слишком похожи на формальную «отписку» на злобу дня.