С развитием технологий объем данных, доступных бизнесу, стал увеличиваться в геометрической прогрессии. Существовавшие способы ее обработки и хранения не справлялись с таким объемом, поэтому потребовались специальные алгоритмы, которые могли бы хранить и проанализировать огромные массивы данных. Такой технологией стала Big Data. Читайте подробнее в статье, что это такое, для чего нужно и как работает. Также приведены примеры использования технологии в различных отраслях бизнеса в 2023 году.
Что такое Big Data
Big Data, или большие данные – это гигантские массивы информации, для обработки и хранения которых используют специальные алгоритмы.
Тема больших данных впервые появилась в 1960-70-х годах, когда началась история Центров обработки данных. А первая платформа, предназначенная для взаимодействия с большими данными, была создана в 2005 году - Hadoop.
Сам термин Big Data впервые был употреблен в 2008 году. Автором определения стал редактор журнала Nature Клиффорд Линч, который отнес к большим данным всю неоднородную информацию, объем которой превышает 150 Гб в сутки. Однако сегодня единого критерия объема нет, поскольку количество данных, в том числе видео, фото, контент социальный сетей, файлы, документы, ссылки, записи, быстро увеличивается во всем мире.
Big Data – это не просто общие хранилища данных, а инструменты, которые быстрее обрабатывают информацию и тратят меньше времени на анализ. Их применяют для сбора статистики, прогнозирования. Широкое применение Big Data находят в маркетинге: полученные данные подвергаются анализу, на его основе составляется точный портрет пользователя с набором определенных социально-демографических характеристик.
Главные отличия больших данных от традиционной аналитики:
- Весь массив неструктурированных данных обрабатывается сразу.
- Сортировки данных перед обработкой, в свою очередь, не происходит.
- Эта информация подвергается обработке в реальном времени.
Сегодня большие данные используют госорганы, бизнес во всех отраслях и крупные компании. Среди них Microsoft, IBM, Oracle, EMC, Google, Apple и другие.
Зачем нужны большие данные
Большие данные применяют во всех отраслях, где предполагается работа с большим объемом информации и необходимость его анализировать. Это маркетинг и реклама, банковская сфера, здравоохранение, промышленность, ритейл, страховой бизнес и многие другие сферы. Главные цели, которые решают данные:
- Построение моделей, основанных на поиске причинно-следственных связей.
- Оптимизировать рутинные процессы, требующие больших трудозатрат. Например, в сервисах такси расчет стоимости сделают не люди, а автоматические программы, учитывая расстояние, погоду, время суток, загруженность дорог.
- Составление прогнозов. Компании предсказывают поведение покупателей, на основе идет формирование магазинами персональных предложений.
Таким образом, технологии Big Data ценны не столько способностью собрать и хранить данные, сколько возможностями для ее обработки. Они имеют встроенные инструменты аналитики, которые дают возможность за короткое время провести предиктивный анализ, определить прогноз результатов стратегических решений, оптимизировать работу любого предприятия, найти пути развития.
Характеристики Big Data
От обычных данных большие отличаются признаками, которые называют VVV:
- Volume(объем) — размер данных, их вес и место, занимаемое ими. Обычно о больших данных говорят, если их поток превышает 100 Гб в сутки.
- Velocity(скорость) — чтобы быстро обработать большой объем информации, необходима высокая скорость.
- Variety (разнообразие) — данные поступают в разнообразных форматах. Это может быть текст, денежные транзакции, видео и аудио. Используются структурированные или неструктурированные данные – часто большие данные не упорядочены полностью либо их часть.
- Variability (изменчивость) — поток данных не всегда однороден, случаются всплески и спады.
- Value(ценность) — параметр, который оценивает важность информации и сложность ее обработки. Помогает бизнесу рассчитать эффективность затрат на внедрение Big Data.
- Visualization(визуализация) — результаты анализа Big Data можно визуализировать для упрощения восприятия.
- Veracity(достоверность) — точность как самих данных, так и способа, с помощью которого они получены.
Как собирают и хранят большие данные
Big Data необходимы, чтобы собирать данные из всех доступных источников. Это следующие источники:
- Интернет вещей (IoT) и облегчающие жизнь устройства, подключенные к нему. Это смартфоны, умные колонки, системы умного дома и другие устройства, передающие данные с помощью датчиков.
- Данные от компаний: заказы продуктов, совершенные транзакции, профили клиентов, запросы в сети.
- Данные приборов – метрологических станций, замеров состава воды и воздуха, сведения, полученные со спутников.
- Статистика государств и регионов о рождаемости и смерти, миграции жителей.
- Медицинская информация – результаты анализов, электронные снимки.
- Социальные сети, в которые пользователи выкладывают видео, тексты, фотографии.
- Онлайн-кассы, отправляющие через сеть данные о транзакциях в режиме реального времени.
- Карты лояльности, которыми пользуются постоянные клиенты.
- GPS-трекеры.
- Поисковые системы, куда пользователи вводят запросы.
- Информация из мобильных приложений.
Для хранения всей полученной информации существуют следующие технологии:
- Собственные сервера и инфраструктура, которую компания самостоятельно закупает. Также необходимо организовать их обслуживание.
- Специальные дата-центры с очень мощными серверами.
- Data cloud – готовые облачные хранилища, которые сдают в аренду места для хранения данных и обеспечивают техническую поддержку. Такую услугу предоставляют, например, Amazon, Microsoft или Google.
Как анализируют и используют большие данные
Для обработки больших данных используется специальное ПО, которое называют горизонтально масштабируемым: задачи распределяются между несколькими компьютерами, которые одновременно проводят обработку.
В основе ПО – модель параллельных вычислений MapReduce, которая работает по алгоритму:
- Извлечение данных из всех источников, которые система фильтрует по заданным условиям и распределяет между компьютерами.
- Компьютеры (узлы) параллельно проводят вычисления, передавая полученные результаты.
Именно на основе этой модели работает Hadoop с открытым кодом. Если в одном узле этой системы произойдет сбой, ее задачи будут переданы другим. Еще один пример такого ПО - Apache Spark. Это набор библиотек, предназначенных для проведения вычислений в оперативной памяти.
Для анализа больших объемов данных и выявления закономерностей используется несколько методов:
- Descriptive analytics – описательный метод, используется для выяснения причин событий, корректировки действий.
- Predictive analytic – предписательный метод прогнозирования на основе текущей ситуации. Для этого используется машинное обучение, нейросеть, Data Maning и сложные математические алгоритмы.
- Prescriptive analytics – предиктивная технология выявления проблемных точек в любом деле и прогнозирования с их учетом.
- Diagnostic analytics – диагностика текущего состояния для выявления проблем.
Для работы с большими данными используются следующие техники:
- Краудсорсинг – ручной анализ источников с участием интернет-пользователей.
- Визуализация – построение графика, чтобы наглядно представить результат анализа.
- Машинное обучение – использование искусственного интеллекта и нейросети для принятия эффективных решений.
- Смешение и интеграция данных – объединение данных из разных источников.
- Data Mining – глубокий анализ, позволяющий выявить определенные закономерности.
Базы работают на основе обезличивания данных для защиты информации и агрегированности, то есть оперирования средними показателями.
Использование технологии Big Data
Данные используют во многих отраслях бизнеса:
- Промышленность. Большие данные позволяют прогнозировать спрос на продукцию и, соответственно, планировать производство.
- Найм сотрудников. С помощью данных рекрутеры на начальном этапе отсеивают кандидатов, не заинтересованных в получении вакантной должности или совсем не подходящих для нее.
- Банки. Данные позволяют защищать клиентов банков от действий мошенников, поскольку системы способны автоматически обнаруживать странности в поведении отдельных пользователей. Также большие данные используют для оценки платежеспособности клиентов.
- Автомобилестроение. Большие данные помогает усовершенствовать производство машин разного назначения.
- Медицина. Используют для анализа показателей жизнедеятельности человека, для точной постановки диагнозов и разработкилекарств.
- Госструктуры. С помощью больших данных государственные компании ведут статистику, принимают решения относительно занятости населения, борьбы с преступностью, обеспечения безопасности.
- Маркетинг. Большие данные упрощают исследования и проекты, позволяют с помощью cookies сегментировать пользователей и разрабатывать для них персональные предложения.
- Медиа. Big Data используются для измерения аудитории для формирования редакционной политики.
- Логистика. Использование больших данных и их анализ оптимизирует перевозки и делает их дешевле, исключает вероятность ошибок.
- Обработка фото. Базы данных позволяют использовать огромное число стилей и фильтров, которые помогают в работе фотографов.
- Ритейл. Большие данные применяются супермаркетами и интернет-магазинами для анализа транзакций, разработки персональных предложений, оптимизации доставки, улучшения мерчендайзинга.
- Рынок недвижимости. Девелоперы собирают информацию, чтобы предложить пользователю интересные варианты жилья.
- Спорт. Тренеры используют Big Data для отбора перспективных игроков и разработки эффективных стратегий для каждого противника.
- Сельское хозяйство. Big Data необходимы для построения точных прогнозов погоды в конкретной местности.
- Геология. На основе больших данных о состоянии почвы и прочих факторах ведется поиск новых месторождений.
- Образование. Большие данные помогают понимать и выбирать курсы и вебинары.
Big Data в маркетинге
Широкое применение данные нашли в продвижении. К маркетингу обычно относится четыре типа данных:
- Данные о клиентах – демографические, социальные, предпочтения, интересы.
- Данные о конкурентах – цены, продажи, рекламные активности.
- Данные об операциях – критерии эффективности маркетинговых кампаний.
- Данные о финансах – уровень продаж, издержки, прибыль.
На практике большие данные применяются маркетологами для решения следующих задач:
- Сегментация рынка.
- Портрет целевой аудитории.
- Персонализация рекламы в интернете и соцсетях и снижение расходов на рекламные кампании.
- Прогнозирование поведения потребителей.
- Создание и совершенствование продуктов.
- Сокращение издержек.
- Формирование персонализированных скидок, рекомендация новинок.
Языки программирования для больших данных
Для работы требуется знание нескольких языков программирования. Самые основные:
- Python – очень популярный язык программирования. Python широко применяется для статистического анализа и в машинном обучении. Существует много библиотек Python, которые упрощают работу.
- Java – язык, который нужен для написания некоторых бесплатных инструментов для работы с Big Data.
- JavaScript – один из основных языков для создания динамичных сайтов и блогов. Используется для обмена большими данными и их визуализации.
- C/C - два языка, которые позволяют генерировать полезные инструменты с высокой скоростью работы и управлять ими. Они помогают обрабатывать множество данных за короткое время.
- R – язык, который используют для проведения статистического анализа и визуализации. Обычно его выбирают, когда нужно работать со сложной статистикой.
- SQL – язык запросов. Необходим, чтобы получить доступ к информации, которая хранится в базах данных.
Программирование – основа работы с данными. Его знание требуется на всех этапах, от выгрузки информации до обработки и настройки алгоритмов машинного обучения.
Big Data и персональные данные
Одним из основных уязвимых мест Big Data является то, что системы собирают и используют в анализе персональные данные пользователей – телефон, адрес и другие. Важно, что, если компании целенаправленно занимаются сбором данных о клиентах или посетителях сайта, они должны получить согласие. Для этого просят принять соглашение о сборе информации, этого требует законодательство с 2023 года.
В Big Data данные хранятся в обезличенном виде. Кроме того, в базах они зашифрованы – таким образом обеспечивается безопасность пользователей и информации о них. Однако для того, чтобы гарантировать полную безопасность, этого недостаточно. В российском секторе интернета происходит, по статистике, до 10 краж персональных данных ежегодно. Проблема заключается еще и в том, что пользователи, в большей степени, не представляют, какие свои данные и в каком объеме они передают компании. Потеря контроля над информацией – причина серьезного репутационного ущерба любой компании.
Использование больших данных требует очень серьезного подхода к обеспечению безопасности информации и создания новых методов для ее хранения.
Сервисы Big Data
В связи с широким распространением Big Data разработчики создают специальные программы. С применением программного обеспечения становится проще работа с большими данными, легче извлекать и обрабатывать информацию. Некоторые из них:
- 1С-Битрикс BigData – облачный сервис, чтобы персонализировать рекламу, который встраивается в систему управления сайтом. Позволяет повысить эффективность рекламы и увеличить средний чек.
- RTB Media – платформа для закупки цифровой рекламы и участия в RTB-аукционах. Позволяет настроить ретаргетинг, применяется для привлечения покупателей.
- Alytics – система аналитики с возможностью автоматизировать контекстную рекламу и получать интерактивные отчеты со всеми метриками, отражающими ее эффективность.
- Crossss – сервис для персонализации интернет-магазинов. Собирает информацию о поведении пользователей, определяет их интересы, обеспечивает персонализированные предложения – к примеру, индивидуальную выкладку товаров в каталоге или рассылки на электронную почту.
- Know Your Data – приложение для анализа больших данных в Google.
Кроме того, существует немало облачных сервисов, которые позволяют хранить и обрабатывать информацию без расходов на обслуживание собственных вычислительных и аналитических мощностей и физического оборудования.
Примеры использования больших данных
Приведем несколько примеров успешного использования возможностей данных крупными компаниями (Use Cases):
- Toyota изучила поведение водителей в момент аварии и разработала систему безопасности.
- Airbnb проводит аналитику поведения пользователей и предлагает самые популярные направления в соответствии с их интересами.
- Издание Huffington Post в реальном времени оценивает реакцию пользователей, комментарии, подписки и делает тесты разных методов доставки контента категориям читателей, чтобы стимулировать их подписаться.
- Amazon запустил рекомендации продуктов клиентам на основе машинного обучения. Они включают как предыдущие покупки, так и время года, приближающиеся праздники и другие факторы.
- В супермаркетах «Лента» предлагают персонализированные скидки, с помощью данных осуществляется ценообразование.
- Intel улучшила систему тестирования компьютеров перед их отправкой в магазины, благодаря чему сократились сроки доставки.
- ПЭК запустила Центр управления перевозками, что помогло обеспечить загрузку складов и сократить сроки доставки.
- DHL решила проблему «последней мили» и оптимизировала маршруты курьеров с помощью данных, собираемых GPS.
- В магазинах «Карусель» используется система умной выкладки, подсказывающая, как лучше оформить витрину для повышения продаж.
- Альфа Банк собирает большие объемы данных о клиентах и создает персональные предложения.
- Stafory разработала робота-рекрутера Веру. Он сортирует резюме, обзванивает кандидатов, выделяет наиболее заинтересованных.
- Netflix анализирует поведение клиентов и рекомендует персонально каждому новые фильмы и сериалы.
- Ozon анализирует огромные объемы данных и создает таргетированную рекламу.
Специалисты по большим данным
C Биг дата связаны три профессии:
- Data Scientist – специалист, который анализирует базы данных, делает выводы и строит прогнозы. В компетенции дата-сайентиста входит обязательное знание программирования, статистики, математики.
- Big Data аналитик данных – специалист, который проводит аналитику, анализирует нескольк наборов данных и визуализирует результаты.
- Data-инженер – занимается технической стороной сбора и обработки данных, поддерживает работу системы.
Ожидается, что количество вакансий для специалистов, которые связаны с базами данных, будет расти, поскольку компании все чаще прибегают к подобным моделям для оптимизации своей работы. Например, HeadHunter выяснил, что за 4 последних года спрос на подобных специалистов вырос в 4 раза. Большинство вакансий приходятся на IT-компании, также сотрудники востребованы в финансовом секторе.
Чтобы стать специалистом по базам данных, необходимо разобраться, как они работают, и изучить Python и SQL. Кроме того, не всего просто понять сферу, в которой хотелось бы работать – это может быть, например, финтех или другое направление бизнеса.
Big Data в России и мире
Объем хранящихся цифровых данных неуклонно растет, особенно в бизнесе в области IT, в телекоме и банках. В 2023 году США и Европе примерно половина компаний работает с данными, а мировыми лидерами по внедрению и применению таких технологий являются США и Китай. В целом в мире объем рынка растет практически на 30% в год. Главные потребители больших данных – крупные корпорации, однако в некоторых странах их деятельность по сбору данных о пользователях ограничена.
В Китае, например, к 2023 году действует более 200 законов, которые касаются сохранения личной информации. В Европе действует GDPR – регламент по защите данных, который регулирует все процессы, связанные с их сбором и хранением.
В России рынок Big Data только оформляется. Например, известно, что сотовые операторы делятся данными с банками о потенциальных заемщиках, данных на 500 млн. долларов у операторов связи купило Правительство Москвы. Среди корпораций, которые, как правило, активно используют большие данные - «Яндекс», «Сбер», Mail.ru Group (VK). В 2018 году в России была создана профильная ассоциация, в которую вошли крупные компании, работающие с большими данными. Эксперты считают, что у российского рынка данных огромный потенциал, а экономический эффект, связанный с использованием подобных технологий, будет увеличиваться.
Проблемы и перспективы Big Data
При использовании данных компании сталкиваются с некоторыми сложностями. Чаще всего возникают такие проблемы:
- Нет ресурсов для хранения больших данных, далеко не все хранилища имеют возможность решить эту задачу.
- Сложности с системой обработки получаемых данных. Аналитики тратят много времени на то, чтобы привести терабайты и петабайты данных в понятный вид.
- Регулярное появление инструментов для работы с большими данными, что влечет за собой необходимость постоянного обучения.
- Большие данные неоднородны, что вызывает сложности с их обработкой. Отсутствие всех необходимых инструментов для анализа данных ухудшает его качество и приводит к появлению ошибок.
- Для работы с данными нужны огромные вычислительные мощности, которые пока доступны только крупных компаниям.
- Сбор больших данных всегда связан с проблемой приватности: далеко не все пользователи хотят, чтобы данные о них были известны корпорациям.
- Данные использует не просто бизнес, но и политики – например, для того, чтобы повлиять на исход выборов.
Однако преимуществ использования больших данных больше, и их важность для развития человечества трудно переоценить. Например, они помогают бороться с пандемиями, решать проблемы городов, экономить средства в государственном бюджете, приносить другую пользу.
Часто задаваемые вопросы
Data Science – наука, которая подразумевает обработку и хранение любых данных, не только больших. В ней используется как программирование, так и методы математического, статистического анализа.
Специалистом невозможно стать без хорошего знания математики и базовых технологий, которые используют при работе с большими данными – таких как Hadoop, Spark, NoSQL.
В 2023 году соответствующее образование можно получить в некоторых технических университетах. Также по специальности дата-аналитик можно учиться на онлайн-курсах (например, по специальности Master in Big Data Analytics for Business) или изучать материалы самостоятельно, что намного сложнее.
Да, это не просто, но возможно, однако для обучения потребуется не один месяц. При желании за несколько дней можно самостоятельно изучить принципы работы с данными и основные технологии, но также необходимо постоянно отслеживать новые тенденции, появляющиеся в этой сфере. В любом случае важно постоянно нарабатывать и расширять опыт, получать дополнительные актуальные знания о современном состоянии технологий.
Нефть – это основа российской экономики, ее главная потребность. Big Data также способны стать одним из главных факторов развития как отдельных компаний, так и государств в целом.
Стоит заранее разобраться в принципах работы больших данных, изучить программирование. Это базовые знания, необходимые для понимания работы с данными. Многие онлайн-школы предлагают пройти тест «Ты аналитик», чтобы понять, подходит ли профессия.
Заключение
Эксперты рассказывают, что популярность Big Data будет расти вместе с ростом количества информации, требующей обработки. Вероятно, работать с большими данными будут не только крупные предприятия, но также средний и малый бизнес, стартапы, особенно с учетом того, какие возможности дает искусственный интеллект. В будущем Big Data станут главным инструментом принятия решений – начиная от производителей и заканчивая государственными структурами и международными организациями.
Нашли ошибку в тексте? Выделите нужный фрагмент и нажмите ctrl + enter