Регулирование рекомендательных систем — идея, которую неправильно поняли

В конце марта в закон «Об информации» предложили внести очередные изменения. На этот раз речь шла о регулировании рекомендательных систем, которые формируют выдачу под каждого пользователя. Они работают везде: от поисковика Яндекса до маркетплейсов. Правильно ли истолковали предложение, какие скрытые проблемы не учли авторы и насколько идея реализуема технически?

Что произошло

«Госдуме предложили взять под контроль рекомендации соцсетей», «власти взялись за рекомендательные сервисы» — так подавали новость СМИ. Как всё было на самом деле: Ассоциации юристов России подготовила и отправила письмо в Думу, Совет Федерации и Минцифры. Суть предложения: обязать российские сайты с высокой посещаемостью объяснять пользователям принципы работы рекомендательных систем на этих сайтах, дать возможность отключать эти системы и заниматься мониторингом того, что продвигается через рекомендательные алгоритмы.

Главные пункты: 

  • Закрепить законодательно понятия «рекомендательный сервис» и «оператор рекомендательного сервиса».
  • Применять требование к площадкам, обрабатывающим данные более 500 000 российских пользователей или имеющим посещаемость более 100 000 пользователей.      
  • Обязать площадки давать пользователям возможность отключать рекомендательные алгоритмы, сохраняя доступность самого сервиса.
  • Обязать площадки пояснять пользователям принципы работы рекомендательных сервисов.
  • Проводить независимый аудит алгоритмов таких сервисов, выявлять аномалии и противоречия законодательству.
  • Ввести контроль за использованием рекомендательных алгоритмов для продвижения незаконного контента.

Предложение пока не рассматривали, и единственное, что точно известно — в Госдуме подтвердили, что письмо получено. Насколько реально выполнить эти пункты с технической точки зрения? Для этого нужно понимать, как работают рекомендательные системы.

Принципы работы рекомендательных систем

В основе работы рекомендательных систем лежат данные об объекте рекомендаций и пользователе. Подходы и формулы, ИИ, машинное обучение — всё это в конечном счете опирается на данные.

Например, что знает онлайн-кинотеатр о фильме «Молчание ягнят»? Что по жанру это детективный триллер с элементами ужаса. Что там играет Энтони Хопкинс и Джоди Фостер. Что у фильма есть приквелы, продолжения и фильмы, связанные общей вселенной. Возможно, сайт выделяет какие-то специфичные теги, например «фильмы про маньяков» или «фильмы с харизматичным злодеем». На основе этого рекомендательная система сайта может сформировать подборку рекомендаций, опираясь только на сам фильм:

Рекомендации на сайте «Кинопоиска» 

С другой стороны, есть конкретный пользователь. Данные о нем — это, с одной стороны, его геолокация, пол, возраст и другие «постоянные характеристики», а с другой — история действий на сайте, просмотренные страницы, написанные комментарии, купленные товары. Эти данные постоянно обновляются. Сайт использует и первый, и второй тип данных, чтобы персонализировать рекомендации под конкретного пользователя. Например, если известно, что человеку помимо «Молчания ягнят» понравился «Настоящий детектив» — система будет советовать больше фильмов про расследования по делам маньяков-убийц. А если вместе с историей про Ганнибала Лектера пользователь за последний месяц посмотрел еще 5 фильмов с Энтони Хопкинсом, посоветует другие фильмы с участием актера.

Рекомендательные системы использует те данные, которые сайт собирает и обрабатывает, следуя закону «О защите персональных данных».

Подборка рекомендованных фильмов, составленная на основе ранее просмотренных фильмов и списка «понравившихся» фильмов, который пользователь составляет при регистрации

Такие системы сегодня используются повсеместно, примеры площадок и кейсы использования:

Поисковые системы применяют рекомендации, чтобы персонализировать выдачу и, например, по запросу «бургерная» показывать сайты бургерных только в вашем городе, при этом сортируя их в порядке удаленности от вашей текущей геопозиции.

Маркетплейсы и интернет-магазины — чтобы рекомендовать комплектные товары (набор лезвий к бритве) и делать подборки на основе персональных предпочтений пользователя.

Новостные сайты — чтобы обеспечивать большую глубину просмотра, предлагая новости, дополняющие или пересекающиеся с текущей. 

Социальные сети — чтобы рекомендовать пользователю возможных друзей и сообщества по его интересам, а также формировать алгоритмическую ленту, где все события сортируются по «важности» для пользователя и, например, отфильтровываются посты людей и сообществ, с которыми пользователь редко взаимодействует.

Музыкальные, видеоплатформы, «читалки» электронных книг — чтобы удовлетворить запрос пользователя на новый контент, который ему понравится.

Фактически, любой сайт, который имеет достаточно много трафика, чтобы использовать данные о пользователях и их действиях, и имеющий «каталог продуктов» из достаточно большого числа позиций, чтобы рекомендовать одно к другому, может использовать системы рекомендаций. Это могут быть сайты застройщиков, банков, страховых компаний или онлайн-школ.

Рекомендации на сайте застройщика: учитывается площадь, количество комнат и цена

Чем потенциально опасны рекомендательные системы

Одна из главных проблем, которую обсуждают с момента появления первых алгоритмов рекомендаций — это так называемый Filter bubble. То, чем интересуется пользователь, влияет на его поисковую выдачу и новостную ленту, соответственно, он попадает в ловушку, начинает видеть только ту информацию, которой однажды поинтересовался и которую теперь ему поставляет рекомендательная система. Не может выбраться из «пузыря» и таким образом пропускает что-то важное или потенциально ему интересное.    

Такое явление можно наблюдать, например, на YouTube, Яндекс.Дзене, в видеоленте Facebook. Алгоритмы этих сервисов очень быстро обучаются и загоняют пользователя внутрь «информационного пузыря». 

Если посмотреть несколько видео про велоспорт — половина рекомендаций поменяется на ролики по теме 

Чтобы изменить выдачу рекомендаций, пользователю придется сознательно «переобучать» систему: вручную искать и смотреть контент, который отличается от того, что есть сейчас в его ленте. Однако это не так просто: тот же YouTube, будучи продуктом Google, использует данные других подчиненных систем: например, ваши подписки и лайки в Instagram, ленту Facebook, поисковые запросы в Google. Чтобы выбраться из ловушки, вам фактически нужно будет сменить интересы.

Вероятно, причиной появления письма от Ассоциации юристов стали будущие выборы в Государственную думу: алгоритмическая лента социальных сетей, фильтрующая информацию, станет препятствием для решения политических задач. Это, конечно, не единственная причина: сейчас рекомендательные системы работают автономно и слабо модерируются — так в ленту социальных сетей несовершеннолетних попадает контент 18+ или реклама запрещенных веществ.

Можно ли реализовать предложения юристов и какие у этого могут быть последствия

Зачастую рекомендательные системы — это third-party software. Многие сайты пользуются рекомендательными движками, созданными другими компаниями, только единицы используют собственные разработки. Таким образом, компании, на которых будет распространяться требование регулировать работу рекомендаций, окажутся в патовой ситуации: они будут вынуждены либо договариваться с провайдером программного решения, либо отказываться от него, либо готовиться к санкциям Роскомнадзора.

Но наибольшие сомнение вызывает даже не это, а предложение «предоставить пользователям возможность отключения алгоритмов рекомендаций, сохраняя доступность самого сервиса».

С одной стороны, технически это реализуемо и, более того, уже реализовано на ряде сайтов. Например, поисковики Google и Яндекс дают возможность отключать персональные результаты, очищать историю просмотров, учет геолокации.

Отключение персональной выдачи в Google

С другой стороны, некоторые сервисы построены вокруг персонализации и рекомендаций, например, лента Яндекс.Дзена полностью алгоритмическая, а отдельные страницы маркетплейсов или онлайн-кинотеатров состоят целиком из персональных рекомендаций. 

Отключение рекомендаций для таких сайтов — это потеря прибыли, а для их пользователей снижение качества сервиса и потеря важной функциональности. Spotify или Яндекс.Музыка — это только на половину плеер, вторая половина предоставляемого сервиса — как раз рекомендации по интересам, возможность серфить и открывать для себя новую музыку.

Конечно, в предложении юристов не идет речи об обязательном отключении блоков рекомендаций «сверху», сам пользователь должен будет выбирать, отключить или оставить. В этом случае важным пунктом будет работа с просвещением пользователей: им нужно будет доступно объяснить, почему он видит именно это в блоке рекомендаций и что будет, если он рекомендации отключит.

Объяснение принципов работы «персональных результатов» в поисковой системе Google 

Подход с возможностью влиять на машинные алгоритмы сам по себе — более, чем разумен. Пользователь сможет исключать из рекомендаций неинтересные ему товары, фильмы, треки и так далее, по принципу, как это реализовано в рекламных сетях. 

Пример того, как пользователь может влиять на показываемую ему рекламу во «ВКонтакте».

Также проблема самого предложения сейчас в том, что оно обобщает все сайты с высокой посещаемостью. При этом последствия от отключения персональной ленты в социальной сети, на новостном сайте и на сайте интернет-магазина — совершенно разные. Последний, например, вряд ли может манипулировать общественным мнением или разжигать вражду, он рекомендует товары, а не журналистские расследования.

Если всё это и превратится в законопроект, то нужна будет его более глубокая проработка с пониманием технической стороны вопроса. А сайты, к которым применят закон, нужно будет разделить на несколько групп и для каждой разработать свои рекомендации и требования. В текущем виде предложения слишком похожи на формальную «отписку» на злобу дня.

Подпишитесь на рассылку

Мы отправляем ее не чаще раза в неделю. Внутри — главные обновления продукта, полезные руководства и крутые статьи о e-commerce.