Андрей Устюжанин не видит ограничений в сферах применения технологий Больших данных. Фото автора
Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ) открыл Лабораторию методов анализа Больших данных (БД). Презентация новой научно-учебной лаборатории, получившей название LAMBDA (LAboratory of Methods for Big Data Analysis), прошла на факультете компьютерных наук НИУ ВШЭ. Завлабом стал руководитель совместных проектов Школы анализа данных Яндекса и Европейского центра ядерных исследований (CERN) Андрей Устюжанин.
Большие данные (англ. Big Data) – это огромные объемы структурированной или неструктурированной информации, такие, к примеру, как статистика социальных сетей, архивы документов, показатели фондовых рынков. Задача специалистов по анализу Больших данных состоит в том, чтобы после обработки этих информационных массивов получить полезные для человека результаты. Сам этот термин, Big Data, был введен в использование сравнительно недавно – в 2008 году, а как академический предмет анализ Больших данных появился всего два года назад.
Сегодня благодаря работе с Большими данными решаются задачи бизнеса, такие, к примеру, как прогнозирование вероятности возврата кредита или ухода клиента из определенной компании. Но коммерческими интересами использование Big Data не ограничивается – физики Европейского центра ядерных исследований (CERN) используют их для идентификации новых частиц, проверки и опровержения гипотез об устройстве вселенной.
Алгоритмы обработки Big Data анализируют не содержание данных, а взаимосвязи между ними. И в этом смысле они универсальны в приложении к любой области человеческой деятельности. Так, авторы книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» (2014) Виктор Майер-Шенбергер и Кеннет Кукьер приводят любопытные примеры использования технологий анализа Больших данных:
«…к 2013 году количество хранящейся информации в мире составило 1,2 зеттабайта (1,2 х 1021 байт), из которых на нецифровую информацию приходится менее 2%... Если записать данные на компакт-диски и сложить их в пять стопок, то каждая из них будет высотой до Луны»;
«Варианты эндшпиля при оставшихся шести (и менее) фигурах на шахматной доске полностью проанализированы, а все возможные ходы… представлены в виде массивной таблицы, которая в несжатом виде заполнила бы более терабайта данных. Благодаря этому компьютеры могут безупречно вести все важные эндшпили. Ни один человек не сможет переиграть систему»;
«Сеть магазинов Walmart проанализировала старые квитанции продаж и заметила выгодную корреляцию между ураганами и продажами Pop-Tarts (сорт печенья)»;
«…вероятность неисправностей автомобилей, окрашенных в оранжевый цвет, гораздо ниже (примерно наполовину), чем среди остальных автомобилей».
«Наша лаборатория будет практически помогать в использовании методов анализа Больших данных для поиска и извлечения новых знаний и закономерностей, недоступных при использовании других подходов», – пояснил Андрей Устюжанин.
Среди основных задач лаборатории ее руководитель выделил разработку методов анализа Больших данных, применение этих методов в различных областях, в том числе и в фундаментальной физике, а также подготовку людей к работе с этими методами. Стоит отметить, что подготовка будет осуществляться только на практике. Слушатели, проработав в лаборатории, приобретут опыт исследований в области БД и технологий их обработки и анализа.
Фактически речь идет о том, что эпоха Big Data меняет внутреннее содержание таких понятий, как «наука», «научная теория». «Для того чтобы понимать окружающий мир, теперь не обязательно изучать рабочие гипотезы о том или ином явлении… Вместо этого достаточно провести корреляционный анализ на основе Больших данных… вместо подверженного ошибкам подхода на основе гипотез благодаря корреляциям между Большими данными у нас есть подход, построенный на данных. И он может быть менее предвзятым, более точным и наверняка менее трудоемким», – отмечают те же Майер-Шенбергер и Кукьер.
Тем не менее что касается самих методов анализа Больших данных, то, по словам Андрея Устюжанина, они в первую очередь должны внести свой вклад в развитие науки. Первая исследовательская группа лаборатории будет рассматривать задачи, относящиеся к физике частиц: разрабатывать методы для поиска новых частиц, изучения их свойств.
Однако методы, которые будет разрабатывать лаборатория, – это «метаобласть», а значит, могут быть использованы не только в физике, но и в других науках. Благодаря этому расширяется инструментарий анализа. LAMBDA сможет решать и некоторые задачи бизнеса. Среди них заведующий новой лабораторией назвал разного рода прогнозы. Так, с помощью анализа Больших данных можно вычислить вероятность того, вернет ли человек выданный ему кредит, или предсказать, уйдет ли клиент от определенной компании.
Пока не так много специалистов и компаний в нашей стране умеют и любят использовать технологии анализа Больших данных в исследовательских целях или в целях оптимизации своего бизнеса. Не все ввиду конкурентно-политических соображений готовы предоставить массивы накопленной информации для анализа. А кроме того, действующий сейчас в России закон об охране частных данных накладывает определенные ограничения в этой области. Но это дело времени, ведь, по словам Устюжанина, «новые технологии влияют на окружение, в котором мы окажемся завтра».
На сегодняшний день в лаборатории уже работают четыре человека: непосредственно руководитель проекта – Андрей Устюжанин и три младших научных сотрудника, которые проводят исследования в области физики. Они же по совместительству являются сотрудниками Yandex Data Factory (новое направление по работе с Большими данными).
И как раз на прошлой неделе, буквально через несколько дней после объявления о создании лаборатории «LAMBDA», компания «АстраЗенека Россия» и Yandex Data Factory объявили о подписании Меморандума о стратегическом сотрудничестве в области Big Data в здравоохранении. В частности, компании планируют запустить ряд проектов в области Больших данных в эпидемиологии, патофизиологии, диагностике и лечении заболеваний в терапевтических областях: инфекционные заболевания, онкология, эндокринология, кардиология, пульмонология, психиатрия…
Желающих работать в лаборатории LAMBDA много. Судя по листочку, пущенному по рядам во время презентации, почти все присутствующие с удовольствием присоединились бы к команде Устюжанина. Но позиций, на которые могут претендовать студенты и аспиранты, не так много. Без конкурса и тщательного отбора кандидатов здесь явно не обойтись. Несмотря на это руководитель лаборатории планирует за февраль набрать нужное количество людей.
Кроме того, в ближайших планах Устюжанина – провести летнюю школу по методам машинного обучения. И, безусловно, LAMBDA будет налаживать связи и с другими лабораториями: проводить совместные семинары, создавать совместные проекты.