Вокруг столько разговоров, пафосных заявлений, хайпа, прости, Господи. Всё о Big Data. Но едва ли кто может точно сказать, что это такое, дать точное определение.

Машинное обучение, компьютерное зрение, распознавания лиц, Интернет вещей, даже блокчейн — всё каким-то образом (прямым или косвенным) связано с Большими Данными. Но мы же с вами не дилетанты, которые ведутся лишь на красивые лозунги? Так давайте же разберёмся в этом явлении.

Что это?

Давать ли точное определение? Наверное, стоит потом вывести его самим. В любом случае для начала предлагаю оставить вот это здесь.

Big Data или Большие Данные — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных* для того, чтобы их использовать для конкретных задач и целей.

*Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Немного истории

В 2005 году некий Roger Mougalas из O’ReillyMedia впервые ввёл понятие Big Data. Это случилось через год после появления другого термина: Интернет 2.0. Это некая отсылка к тому, что данных стало на столько много, что привычные инструменты бизнес-аналитики стали бесполезны.

Пять эксабайт (миллион терабайт) информации было создано миров в период между расцветом цивилизации и 2003 годом. Теперь то же количество появляется каждые два дня.

Такое заявление в 2010 году сделал Эрик Шмидт (Google, Alphabet) на конференции Techonomy.

В 2011 году в отчёте McKinsey было сказано следующее:

Big Data (Большие данные) — следующий переломный момент для инноваций, конкуренции и производительности. В 2018 году США столкнулся с нехваткой 140 000 — 190 000 специалистов по обработке данных, а также 1, 5 миллиона специалистов по управлению данными.

Цифры, конечно, впечатляют. Однако история Больших Данных началась гораздо раньше. Что предшествовало подобному «взрыву»?

Первые библиотеки Вавилона в 2000-х годах до нашей эры, позднее — библиотеки в Александрии. Это можно представить, как одно из первых организованных хранений данных. Конечно, масштабы небольшие, но попытки анализа и структурирования уже налицо.

В середине XVII века Джон Грант, получивший известность после работ в области демографической статистики, выпустил очередной труд. В нем он показал, что использование аналитики смертности позволяло предупреждать о начале эпидемии бубонной чумы.

В 1865 году профессор Ричард Миллер Девинс  ввел термин Business Intelligence, использовав его в своей книге Cyclopedia of Commercial and Business Anecdotes, где кроме прочего рассказал Генри Фернезе, который пришёл к успеху благодаря структурированию и анализу информации о деловой активности.

Позже, в 1881 году, инженер Герман Холлерит создал устройство (табулятор), которое сокращало 10-летний труд до 3 месяцев. Вскоре Холлерит создал компанию TMC, специализирующуюся на создании табулирующих машин. Позже ее купила компания C-T-R, которая в 1924 году была переименована в IBM.

Во время Второй мировой войны остро стоял вопрос быстрого анализа данных. Так был создан ряд компьютеров, позволяющих дешифровать сообщения врага. В 1943 году британские ученые создали машину Colossus. Она значительно ускорила расшифровку сообщений, сократив необходимое время с нескольких недель до нескольких часов.

Начиная с 1950-х годов, наряду с все увеличивающейся потребностью в хранении и обработке информации, начался бурный рост технологий ее хранения, начали появляться центры обработки данных.

И тут, на стыке тысячелетий происходят важные изменения.

Началась эра Интернета. Количество информации растёт по экспоненте. Появляются новые потребности. Создаются поисковики, рекламные движки и т.д.

Всё это предопределяет становление Big Data.

Эту цепочку можно продолжать до бесконечности, но сам термин Big Data пришёл к нам лишь на стыке тысячелетий и кроме подходов, которые были заложены в его основу, явил миру всю совокупность проблем, с которыми сталкивался человек с начала своей истории работы с информацией.

В чём суть?

C историей разобрались. Давайте теперь попробуем заглянуть в саму суть.

Что из себя представляют данные? И чем они отличаются от информации? Данные – это своего рода «исходники», «сырьё», то, что ещё не обработали, не извлекли ценные сведения, не исказили, не истолковали. То есть основа основ.

Тот, кто владеет информацией, владеет миром.

Сегодня же стоит изменить одно слово:

Тот, кто владеет данными, владеет миром.

Имея на руках «исходники», вы властны делать с ними всё, что захотите. Например, обладая файлом в формате psd, у вас есть возможность деформировать, редактировать изображение в ваших интересах, представлять их так, как выгодно именно вам.

А теперь представьте, что такого «сырья» очень много. Как вы думаете, какая власть будет у того, кто будет иметь к ней постоянный доступ.  У того, кто сможет грамотно их использовать.

Большие данные работают по принципу: чем больше вы знаете о чем-либо, тем более точно будет осуществляться прогнозирование, работать система рекомендаций. При сравнении данных начинают появляться отношения которые были раньше не были заметны, и эти отношения позволяют учиться и принимать более разумные решения. Чаще всего это делается с помощью процесса, который включает построение моделей на основе данных, затем запуск моделирования. Этот процесс автоматизирован — современные передовые аналитические технологии будут запускать миллионы таких симуляций, настраивая все возможные переменные до тех пор, пока не найдут определённую закономерность.

Чтобы разобраться во всех этих запутанных данных, используется передовая аналитика, включающая искусственный интеллект и машинное обучение.

В Big Data важны три основные вещи:

  1. Объём
    Количество данных имеет значение. Чем их больше, тем больше вам придется обрабатывать неструктурированных данных. Для некоторых организаций это могут быть десятки терабайт данных. Для других это могут быть сотни петабайт.
  2. Скорость
    Скорость, с которой данные приходят очень высока. Стоит уточнить, что некоторые сервисы, непосредственно связанные с Интернетом работают в режиме реального времени, что требует своевременной оценки и оперативных действий.
  3. Разнообразие
    Типы доступных данных весьма разнообразны. С ростом больших они данные приходят в новые неструктурированные типы данных. Так неструктурированные и полуструктурированные типы данных, такие как текст, аудио и видео, требуют дополнительной предварительной обработки.

Примерно это из себя и представляет Big Data. Конечно, существует ряд технологий, которые непосредственно с ней связаны. Но гораздо интереснее будет рассмотреть примеры того, как же это всё применяется.

Пример IT-компаний

Тут их целая куча, но рассмотрим одного, активного в этом направлении гиганта. Корпорация Apple внедряет машинное обучение во все свои продукты. Преимущество заключается в наличии большой экосистемы, состоящей из устройств, которыми клиенты компании активно пользуются в повседневной жизни. Отсюда по-настоящему огромное количество данных о пользователях. Таким похвастаться, пожалуй, могут не все. Стоит уточнить, что не смотря на это, политика конфиденциальности у Apple очень строгая: корпорация не использует данных клиентов в рекламных целях.

Медицина

Big Data в медицинской сфере позволяет врачам более детально изучить болезнь, что делает в последствии возможным выбрать более эффективный курс лечения для конкретного случая.

Кроме того, новая методика позволила взглянуть на проблемы пациентов с новой стороны. Например, в результате исследований выяснилось, что некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп.

Один из последних примеров — случай в Лурдском медицинском центре Богоматери в Нью-Джерси. В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Торговля и продажи

Анализ данных — средство получения компаниями полного представления относительно ключевых аспектов их бизнеса. Увеличение доходов, снижение затрат и сокращение оборотного капитала являются теми тремя задачами, которые современный бизнес пытается решить с помощью аналитических инструментов.

Особенно отрасль любит использовать технологии Big Data, чтобы улучшить понимание пользовательских запросов и таргетинг. Большие Данные помогают анализировать привычки клиентов. Компании стремятся расширить набор данных благодаря информации из социальных сетей и историй поиска браузера. Так строятся целые предсказательные модели.

Добыча

Внезапно, но факт.

В нефтяной отрасли большие данные уже начинают активно использоваться для предиктивного ремонта оборудования и оптимизации добычи нефти. Но уже до этого данные применялись в геологоразведке.

Анализ геологической информации позволяет создать модель, которая даёт возможность успешно предсказать местоположение полезных ископаемых. Это конечно, в значительной степени экономит ресурсы, время.

Конечно, это не все отрасли, в которых Big Data нашла своё применение. Технология постепенно, но достаточно быстро проникает во все сферы нашей жизни. Это, конечно, вызывает много вопросов о законности, конфиденциальности. Действительно ли можно использовать, обрабатывать те или иные данные, пострадает ли от этого личная жизнь отдельных людей. Но одно понятно точно: технология открывает широчайшие перспективы, доказывая свою полезность. И по традиции: никуда вы от этого не денетесь :)

Подписывайтесь на «Код Дурова» в Telegram и во «ВКонтакте», чтобы всегда быть в курсе интересных новостей!