Мы живем в эпоху Big Data: загружаем фотографии и таблицы в облачные сервисы, пользуемся экосистемами техкорпораций. Но как это работает? Разбираемся с сооснователем и руководителем разработки low-code редактора писем EmailMaker компании Unisender Иваном Дудиным.
Мы живем в эпоху Big Data: загружаем фотографии и таблицы в облачные сервисы, пользуемся экосистемами техкорпораций. Но как это работает? Разбираемся с сооснователем и руководителем разработки low-code редактора писем EmailMaker компании Unisender Иваном Дудиным.
Big Data (англ. — большие данные) — это массивы данных большого объема. Они могут быть структурированными или не иметь определенной структуры. Для их обработки используются различные автоматизированные инструменты. Переработанную таким образом информацию используют для множества задач: создания статистических отчетов, аналитики, прогнозирования, принятия решений.
Принято считать, что использовать термин «большие данные» начали в 90-е, его популяризовал руководитель исследовательских работ в Silicon Graphics Джон Р. Мэши. В 2008 году редактор журнала Nature Клиффорд Линч в специальном выпуске издания рассуждал о резком возрастании количества информации во всем мире. Спустя 16 лет эта сфера развита настолько, что открываются специальные факультеты, а число вакансий, связанных с Big Data, продолжит расти, считает Иван Дудин.
«Специальности настолько востребованы, что если несколько лет назад специалист, работающий с данными, был, как правило, программистом, то сейчас требуются руководители в этой области или специалисты, которые очень хорошо знают и про данные, и про бизнес, и умеют это соединять», — Иван Дудин.
Есть три основных признака Big Data, обозначенных еще давно, и еще три — более современных, всего их шесть:
Работа с большими данными включает в себя несколько этапов:
Для сбора больших данных используют самые разные источники:
Важно, что при сборе любые данные очищают, используя специальные программы.
Большие массивы данных невозможно хранить привычным методом — на жестком диске компьютера. Они хранятся на специальных облачных сервисах, к которым могут иметь доступ сразу несколько человек. Для этого используются DWH (data warehouse — хранилище данных), Data Lake (т. н. озера данных) и системы управления базами данных (СУБД). DWH группирует данные и располагает их в хронологическом порядке, озера не обладают четкой структурой и похожи на виртуальный диск, а СУБД — это системы связанных между собой баз данных.
Для того, чтобы обрабатывать большие данные, нужно специальное программное обеспечение — стандартные инструменты для этого не подходят. Такое ПО использует технологию MapReduce: алгоритмы отбирают данные, распределяют их по устройствам, которые одновременно их обрабатывают. Чаще всего для этого применяются сервисы Hadoop и Apache Spark, а за качеством их работы следят DWH-аналитики.
Для анализа Big Data используются нейросети и язык запросов SQL. Чтобы извлечь нужные данные и получить из них отчеты, применяются сервисы, имеющие в своей основе Business Intelligence — методы и инструменты перевода цифровой информации в читаемую для человека форму и работы с такой обработанной информацией. Цель BI — интерпретировать большое количество данных, заостряя внимание лишь на ключевых факторах, моделировать исход различных вариантов действий и отслеживать результаты принятия решений.
Для бизнеса использование больших данных открывает целые сферы, принципиально недоступные на предыдущих этапах технического развития.
«При выборе места для ресторана, магазина или точки продаж полезно использовать Big Data. С помощью данных можно провести анализ проходимости этого места: кто когда через него проходит, с каким доходом. Это позволяет не ошибиться: как минимум, не открыть в непроходном месте магазин или ресторан, выбрать самое рыбное место», — Иван Дудин.
«Актуальная задача в Unisender — борьба со спамом. Информация обо всех рассылках — это Big Data, спам-рассылки, по сути, тоже близки к понятию больших данных. Для этого мы на совокупности всех рассылок, которые были квалифицированы как спам (их очень много!) обучаем модель. Она будет сравнивать ту рассылку, которую человек только планирует отправить, со всеми, которые когда-либо отправлялись. А вторая модель будет проверять, насколько рассылка не является спамом, она будет обучена на тех рассылках, которые не помечены как спам», — Иван Дудин.
Есть у использования больших данных и свои недостатки. Хранение и работа с большим количеством данных чревата риском утечек, а технологии Big Data требуют дорогостоящего оборудования, ПО и квалифицированного персонала. Кроме того, по словам Дудина, использование больших данных для анализа должно соответствовать законодательству, что не всегда просто.
«Для взаимодействия с Big Data нужны специальные навыки и инструменты — без них большие данные будут бесполезны. Несмотря на прогрессивность технологии, в больших массивах данных могут быть ошибки и дубликаты, что снижает точность аналитики», — Иван Дудин.
«Области применения больших данных расширяются, появляются новые. Раньше это было дорого, и не каждый мог себе позволить собирать, хранить и обрабатывать большие массивы. Сейчас появляются новые платформы, они дешевле, но позволяют работать с Big Data в рамках малого и среднего бизнеса. Становится более понятной ценность для бизнеса, эта технология быстрее и лучше проникает в него», — объясняет Дудин.
Сейчас технология может применяться во множестве отраслей:
На этом список не исчерпывается: использовать Big Data можно в любом бизнесе, который имеет дело с данными — клиентскими, производственными или маркетинговыми. Проанализировав их, можно оптимизировать любой бизнес-процесс, главное — подобрать нужное ПО и компетентного специалиста.
Спасибо, что были с нами! Возобновить подписку можно в любой момент на сайте СберБизнес Live