В рунете до сих пор нет внятного определения, что такое small data, хотя, казалось бы, о больших данных (big data) говорят уже давно. Эти две формы данных похожи и не похожи друг на друга одновременно. Разбираемся, что к чему.
Small Data. Определение
Малые данные (small data) — это когда анализируется информация об одном человеке и делаются выводы (соответственно, большие данные — это когда анализируется множество людей и находятся закономерности в их поведении).
Для сбора, обработки и интерпретации малых данных не нужно много ресурсов: это может сделать и один человек. Такие данные предназначены для решения повседневных задач, в случае с e-commerce: узнавая пол, возраст, физиологические параметры, социальный статус пользователя и другие данные, вы сегментируете пользователей по узнанным критериям и более эффективно проводите рекламные кампании, рекомендуете товары.
Малые данные — это о повседневных задачах: например, собирая электронные адреса покупателей в базу и делая рассылку, вы тоже работаете с малыми данными.
Нужны ли малые данные ритейлерам
У малых данных есть более известный собрат — Big Data, технологический тренд последних нескольких лет. Ритейлерам нужны большие данные: они помогают получить общую картину рынка, увидеть тренды, спрогнозировать спрос или конкуренцию, увеличить продажи за счет понимания поведения покупателей и т.д. Способов применения Big Data действительно много — актуальный пример с рекомендательными системами: они используют большие данные и сложные программные алгоритмы, чтобы спрогнозировать потребности и интересы пользователя по его действиям, сравнивая его модель поведения с тысячами других похожих пользователей. После анализа биг дата такие системы предлагают ему наиболее релевантные товары.
Но пример выше с рекомендательными системами — скорее, единичный случай в онлайн-ритейле, когда бы большие данные применялись так просто и с таким уровнем автоматизации. На деле получается, что если просто взять все эти данные о пользователях и отдать их ритейлу, то единицы будут заниматься анализом и учитывать их при разработке рекламных кампаний или планировании ассортиментна. Причины банальны: сложно, долго, а если писать программные алгоритмы для анализа — дорого.
С малыми данными попроще. На то есть как минимум три причины:
- Они доступны. Для сбора small data не нужны научные методы, программный движок для аналитики, построение сложных гипотез и всё такое прочее. Малые данные — об известных вещах. Так же, как и big data, малым данным нужен анализ, но его можно провести, ограничиваясь стандартным бизнес-софтом.
- Они точны. Вы всегда в силах самостоятельно обновить или уточнить данные ваших клиентов: будь то верификация e-mail и телефона на сайте или даже обзвон колл-центром.
- Они функциональны. Большие наборы данных требуют соответствующей экспертизы аналитика, времени и специализированного программного обеспечения. Кроме того, всегда есть риск сделать неправильные выводы или переусердствовать с анализом. Малые данные легче обрабатывать вручную и потом на основании полученных выводов принимать стратегические решения.
В книге «Принципы Больших Данных» содержатся ключевые отличия малых и больших данных. Приведем их здесь, чтобы окончательно понять суть вопроса.
Small Data | Big Data | |
Цели | Ответ на конкретный вопрос или решение определенной задачи. | Есть нечеткая цель и представление о том, что источник больших данных будет содержать и как будут структурированы данные внутри него, как они будут связаны с другими ресурсами и проанализированы. |
Местонахождение | Как правило, содержатся в одной компании, часто на одном компьютере и иногда в одном файле. | Распространены по всей Сети, обычно хранятся на нескольких серверах, расположенных в самых разных местах Земли. |
Структура и содержание | Обычно хорошо структурированные данные. Область данных: одна дисциплина или субдисциплина. Часто хранятся в виде однородных данных в упорядоченных таблицах. | Большой объем неструктурированных данных (например, текстовые документы, изображения, фильмы, звукозаписи, физические объекты). Предметом больших данных могут быть сразу несколько дисциплин, у каждого объекта могут быть связи с другими, казалось бы, никак не связанными, информационными ресурсами. |
Подготовка данных | Обычно люди, которые занимались подготовкой данных, их и используют. | Данные поступают из многих источников, подготовкой занимается множество людей. При этом используют данные другие люди, не принимавшие участия в подготовке. |
Долговечность | Хранятся в течение ограниченного периода времени (обычно не более 7 лет), а затем архивируются. | Данные хранятся неограниченное количество времени. В идеале, когда текущий источник данных прекращает существование, данные из него «всасываются» в другой источник. |
Измерение | Как правило, данные измерены одним экспериментальным протоколом. | Так как данные поступают в разных электронных форматах, они могут быть измерены разными протоколами. Проверка качества больших данных — одна из самых сложных задач. |
Воспроизводимость | Проекты повторяются: если есть сомнения в качестве данных или обоснованности выводов, весь проект может быть повторен для получения нового набора данных. | Тиражирование данных большого проекта неосуществимо. Если было замечено, что присутствуют некачественные данные, остается только надеяться, что кто-то найдет их и отметит. |
Стоимость | Стоимость проекта ограничена. Лаборатории и учреждения, как правило, могут оправиться от случайного провала. | Проекты стоят неприлично дорого. Некачественные данные могут привести компанию к банкротству, массовым увольнениям и прекращению существования источника данных. |
Самоанализ | Каждая единица данных идентифицируется по строке и столбцу, зная их названия, вы можете найти и указать все ячейки данных в таблице. | Если источник данных не исключительно хорошо структурирован, он может быть непонятен. Для анализа применяются машинные алгоритмы. |
Анализ | В большинстве случаев все данные проекта могут быть проанализированы сразу и в полном объеме. | Обычно анализируются поэтапно (за исключением машинного анализа на суперкомпьютере или нескольких компьютерах сразу). Данные проходят этапы: извлечение, обзор, ограничение, нормализация, трансформация, визуализация, интерпретация и повторный анализ различными методами. |
Надеемся, различия стали более очевидными. Так как наш продукт напрямую связан как с Big Data, так и со Small Data, поясним роль последних в работе REES46.
Малые данные в рекомендательной системе
Когда в магазин приходит новый пользователь, для сервиса рекомендаций он — чистый лист. О нем ничего не известно, коллаборативная фильтрация и другие методы обработки больших данных не работают: ведь мы не знаем, что пользователь покупал, что смотрел и т.д.
Поэтому REES46 наравне с большими использует малые данные, делая на их основе выводы и превращая их в качественные товарные рекомендации.
Пример 1. Покупатель просмотрел несколько товаров в категории «детская одежда». Система делает вывод, что у пользователя есть дети, а глядя на параметры просмотренной одежды, делает запись о том, какого пола ребенок и сколько ему лет. Далее этому пользователю рекомендуются подходящие ему детские товары, при этом используется Small Data: таким образом компенсируются недостатки Big Data.
Пример 2. Покупатель положил в корзину корм Pro Plan для собак. По объему сервис рекомендация делает предположение о том, насколько это крупная порода собаки, а по марке предполагает, что покупателю подойдут товары из высокого ценового сегмента (корм качественный и дорогой). Поэтому в рекомендуемых товарах будут выводиться только качественные аксессуары или игрушки для крупных собак — и это повысит вероятность покупки.
В целом, малые данные — это то, чем нужно пользоваться, когда на обработку Big Data нет времени, вычислительных мощностей или когда о пользователе ничего не известно.
Самое то для принятия решений здесь и сейчас.