29 июля 2024

Что такое большие данные и как их можно использовать в бизнесе

29 июля 2024

Мария Бадамшина

Мы живем в эпоху Big Data: загружаем фотографии и таблицы в облачные сервисы, пользуемся экосистемами техкорпораций. Но как это работает? Разбираемся с сооснователем и руководителем разработки low-code редактора писем EmailMaker компании Unisender Иваном Дудиным.

Тренды ›

29 июля 2024

Что такое большие данные и как их можно использовать в бизнесе

29 июля 2024

Мария Бадамшина

Что такое Big Data

Big Data (англ. — большие данные) — это массивы данных большого объема. Они могут быть структурированными или не иметь определенной структуры. Для их обработки используются различные автоматизированные инструменты. Переработанную таким образом информацию используют для множества задач: создания статистических отчетов, аналитики, прогнозирования, принятия решений.

Принято считать, что использовать термин «большие данные» начали в 90-е, его популяризовал руководитель исследовательских работ в Silicon Graphics Джон Р. Мэши. В 2008 году редактор журнала Nature Клиффорд Линч в специальном выпуске издания рассуждал о резком возрастании количества информации во всем мире. Спустя 16 лет эта сфера развита настолько, что открываются специальные факультеты, а число вакансий, связанных с Big Data, продолжит расти, считает Иван Дудин.

«Специальности настолько востребованы, что если несколько лет назад специалист, работающий с данными, был, как правило, программистом, то сейчас требуются руководители в этой области или специалисты, которые очень хорошо знают и про данные, и про бизнес, и умеют это соединять», — Иван Дудин.

Характеристики больших данных

Есть три основных признака Big Data, обозначенных еще давно, и еще три — более современных, всего их шесть:

Объем (Volume). Именно эту характеристику больших данных обозначил Клиффорд Линч, указав, что к Big Data можно отнести все массивы выше 150 Гб в сутки. Однако единого мнения об этом пороге нет.
Скорость (Velocity). Характеристика указывает на скорость накопления и обработки массивов. Количество больших данных увеличивается, значит, должны развиваться и технологии, которые их обрабатывают.
Разнообразие (Variety). Большие данные бывают структурированные, неструктурированные или частично структурированные.
Достоверность (Veracity). Эта характеристика применима не только к самим большим данным, но и к результатам их анализа.
Изменчивость (Variability). Большие данные нестабильны: на них могут влиять различные события и явления. Эта неравномерность усложняет процесс анализа больших данных.
Ценность (Value). Большие данные различаются по значимости и могут быть проще или сложнее для аналитической работы. Например, проще для восприятия различные посты в социальных сетях, сложнее — банковские процессы.

Что такое интернет вещей и как он работает в бизнесе

0-cover-top-5-internet-veschey-2136-1024

Подробнее ➔

Как работают Big Data

Работа с большими данными включает в себя несколько этапов:

1. Сбор данных

Для сбора больших данных используют самые разные источники:

социальные источники — вся информация, которую создают пользователи соцсетей и интернет-сервисов (фотографии, видео, текстовые сообщения, даже геометки и теги);
статистические источники — данные госорганов и компаний, проводящих исследования;
медицинские источники, такие как электронные карты;
машинные источники — записи с камер и других устройств;
транзакционные источники — финансовые сервисы.

Важно, что при сборе любые данные очищают, используя специальные программы.

2. Хранение данных

Большие массивы данных невозможно хранить привычным методом — на жестком диске компьютера. Они хранятся на специальных облачных сервисах, к которым могут иметь доступ сразу несколько человек. Для этого используются DWH (data warehouse — хранилище данных), Data Lake (т. н. озера данных) и системы управления базами данных (СУБД). DWH группирует данные и располагает их в хронологическом порядке, озера не обладают четкой структурой и похожи на виртуальный диск, а СУБД — это системы связанных между собой баз данных.

3. Обработка данных

Для того, чтобы обрабатывать большие данные, нужно специальное программное обеспечение — стандартные инструменты для этого не подходят. Такое ПО использует технологию MapReduce: алгоритмы отбирают данные, распределяют их по устройствам, которые одновременно их обрабатывают. Чаще всего для этого применяются сервисы Hadoop и Apache Spark, а за качеством их работы следят DWH-аналитики.

4. Аналитика данных

Для анализа Big Data используются нейросети и язык запросов SQL. Чтобы извлечь нужные данные и получить из них отчеты, применяются сервисы, имеющие в своей основе Business Intelligence — методы и инструменты перевода цифровой информации в читаемую для человека форму и работы с такой обработанной информацией. Цель BI — интерпретировать большое количество данных, заостряя внимание лишь на ключевых факторах, моделировать исход различных вариантов действий и отслеживать результаты принятия решений.

Плюсы и минусы использования Big Data в бизнесе

Для бизнеса использование больших данных открывает целые сферы, принципиально недоступные на предыдущих этапах технического развития.

Данные для принятия решений. Компании используют анализ больших данных, чтобы извлекать ценную информацию и принять обоснованное бизнес-решение.
Персонализация. Используя анализ данных о поведении пользователей, компании составляют персонализированные предложения и предлагают индивидуально подобранные услуги.
Повышение эффективности. Информация, полученная по результатам анализа, полезна для оптимизации процессов и повышения эффективности работы.
Прогнозирование. Анализ больших данных дает возможность представлять актуальные тренды и поведение потребителей и использовать их для составления стратегии.

«При выборе места для ресторана, магазина или точки продаж полезно использовать Big Data. С помощью данных можно провести анализ проходимости этого места: кто когда через него проходит, с каким доходом. Это позволяет не ошибиться: как минимум, не открыть в непроходном месте магазин или ресторан, выбрать самое рыбное место», — Иван Дудин.

Выявление случаев мошенничества. По результатам анализа Big Data можно обнаружить аномалии, которые позволят предотвратить мошеннические махинации.

«Актуальная задача в Unisender — борьба со спамом. Информация обо всех рассылках — это Big Data, спам-рассылки, по сути, тоже близки к понятию больших данных. Для этого мы на совокупности всех рассылок, которые были квалифицированы как спам (их очень много!) обучаем модель. Она будет сравнивать ту рассылку, которую человек только планирует отправить, со всеми, которые когда-либо отправлялись. А вторая модель будет проверять, насколько рассылка не является спамом, она будет обучена на тех рассылках, которые не помечены как спам», — Иван Дудин.

Конкурентное преимущество. Использование Big Data помогает компании быстрее адаптироваться ко всему новому на рынке.

Есть у использования больших данных и свои недостатки. Хранение и работа с большим количеством данных чревата риском утечек, а технологии Big Data требуют дорогостоящего оборудования, ПО и квалифицированного персонала. Кроме того, по словам Дудина, использование больших данных для анализа должно соответствовать законодательству, что не всегда просто.

«Для взаимодействия с Big Data нужны специальные навыки и инструменты — без них большие данные будут бесполезны. Несмотря на прогрессивность технологии, в больших массивах данных могут быть ошибки и дубликаты, что снижает точность аналитики», — Иван Дудин.

Примеры применения Big Data в бизнесе

«Области применения больших данных расширяются, появляются новые. Раньше это было дорого, и не каждый мог себе позволить собирать, хранить и обрабатывать большие массивы. Сейчас появляются новые платформы, они дешевле, но позволяют работать с Big Data в рамках малого и среднего бизнеса. Становится более понятной ценность для бизнеса, эта технология быстрее и лучше проникает в него», — объясняет Дудин.

Сейчас технология может применяться во множестве отраслей:

Маркетинг: чтобы рекомендовать покупателям нужные им товары на основе данных о пользователях с такими же запросами.
Торговля: анализируя Big Data, предприниматели могут создавать наиболее востребованные продукты или планировать стратегию реализации товара.
Транспорт: анализ данных помогает составить оптимальные маршруты для водителей.
Образование: анализ данных позволяет составить эффективную программу обучения, спрогнозировать возможные сроки и результаты.
Медицина: быстрая и точная диагностика заболеваний на основе данных о пациентах с подобными симптомами.
Финансы: обнаруженные при анализе данных аномалии могут защитить финансовые организации от мошеннических действий.
Кадры: данные позволяют спроектировать алгоритм, который будет отбирать соискателей быстрее и эффективнее, нежели вручную.

На этом список не исчерпывается: использовать Big Data можно в любом бизнесе, который имеет дело с данными — клиентскими, производственными или маркетинговыми. Проанализировав их, можно оптимизировать любой бизнес-процесс, главное — подобрать нужное ПО и компетентного специалиста.

Портрет целевой аудитории: как составить и зачем нужен

Как портрет покупателя помогает больше зарабатывать

Подробнее ➔

Темы:

Подобрано специально для вас

Вы отписались от рассылки!

Спасибо, что были с нами! Возобновить подписку можно в любой момент на сайте СберБизнес Live

Что такое большие данные и как их можно использовать в бизнесе

Что такое большие данные и как их можно использовать в бизнесе

Что такое Big Data

Характеристики больших данных

Что такое интернет вещей и как он работает в бизнесе

Как работают Big Data

1. Сбор данных

2. Хранение данных

3. Обработка данных

4. Аналитика данных

Плюсы и минусы использования Big Data в бизнесе

Примеры применения Big Data в бизнесе

Портрет целевой аудитории: как составить и зачем нужен

Подобрано специально для вас

Подтвердите свой email

Вы отписались от рассылки!