0
17780
Газета Наука Интернет-версия

11.02.2015 00:01:10

Больших данных много не бывает

Тэги: физика, церн, анализ информации, LAMBDA


физика, церн, анализ информации, LAMBDA Андрей Устюжанин не видит ограничений в сферах применения технологий Больших данных. Фото автора

Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ) открыл Лабораторию методов анализа Больших данных (БД). Презентация новой научно-учебной лаборатории, получившей название LAMBDA (LAboratory of Methods for Big Data Analysis), прошла на факультете компьютерных наук НИУ ВШЭ. Завлабом стал руководитель совместных проектов Школы анализа данных Яндекса и Европейского центра ядерных исследований (CERN) Андрей Устюжанин.

Большие данные (англ. Big Data) – это огромные объемы структурированной или неструктурированной информации, такие, к примеру, как статистика социальных сетей, архивы документов, показатели фондовых рынков. Задача специалистов по анализу Больших данных состоит в том, чтобы после обработки этих информационных массивов получить полезные для человека результаты.  Сам этот термин, Big Data, был введен в использование сравнительно недавно – в 2008 году, а как академический предмет анализ Больших данных появился всего два года назад.

Сегодня благодаря работе с Большими данными решаются задачи бизнеса, такие, к примеру, как прогнозирование вероятности возврата кредита или ухода клиента из определенной компании. Но коммерческими интересами использование Big Data не ограничивается – физики Европейского центра ядерных исследований (CERN) используют их для идентификации новых частиц, проверки и опровержения гипотез об устройстве вселенной.

Алгоритмы обработки Big Data анализируют не содержание данных, а взаимосвязи между ними. И в этом смысле они универсальны в приложении к любой области человеческой деятельности. Так, авторы книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» (2014) Виктор Майер-Шенбергер и Кеннет Кукьер приводят любопытные примеры использования технологий анализа Больших данных:

«…к 2013 году количество хранящейся информации в мире составило 1,2 зеттабайта (1,2 х 1021 байт), из которых на нецифровую информацию приходится менее 2%... Если записать данные на компакт-диски и сложить их в пять стопок, то каждая из них будет высотой до Луны»;

«Варианты эндшпиля при оставшихся шести (и менее) фигурах на шахматной доске полностью проанализированы, а все возможные ходы… представлены в виде массивной таблицы, которая в несжатом виде заполнила бы более терабайта данных. Благодаря этому компьютеры могут безупречно вести все важные эндшпили. Ни один человек не сможет переиграть систему»;

«Сеть магазинов Walmart проанализировала старые квитанции продаж и заметила выгодную корреляцию между ураганами и продажами Pop-Tarts (сорт печенья)»;

«…вероятность неисправностей автомобилей, окрашенных в оранжевый цвет, гораздо ниже (примерно наполовину), чем среди остальных автомобилей».

«Наша лаборатория будет практически помогать в использовании методов анализа Больших данных для поиска и извлечения новых знаний и закономерностей, недоступных при использовании других подходов», – пояснил Андрей Устюжанин.

Среди основных задач лаборатории ее руководитель выделил разработку методов анализа Больших данных, применение этих методов в различных областях, в том числе и в фундаментальной физике, а также подготовку людей к работе с этими методами. Стоит отметить, что подготовка будет осуществляться только на практике. Слушатели, проработав в лаборатории, приобретут опыт исследований в области БД и технологий их обработки и анализа.

Фактически речь идет о том, что эпоха Big Data меняет внутреннее содержание таких понятий, как «наука», «научная теория». «Для того чтобы понимать окружающий мир, теперь не обязательно изучать рабочие гипотезы о том или ином явлении… Вместо этого достаточно провести корреляционный анализ на основе Больших данных… вместо подверженного ошибкам подхода на основе гипотез благодаря корреляциям между Большими данными у нас есть подход, построенный на данных. И он может быть менее предвзятым, более точным и наверняка менее трудоемким», – отмечают те же Майер-Шенбергер и Кукьер.

Тем не менее что касается самих методов анализа Больших данных, то, по словам Андрея Устюжанина, они в первую очередь должны внести свой вклад в развитие науки. Первая исследовательская группа лаборатории будет рассматривать задачи, относящиеся к физике частиц: разрабатывать методы для поиска новых частиц, изучения их свойств.

Однако методы, которые будет разрабатывать лаборатория, – это «метаобласть», а значит, могут быть использованы не только в физике, но и в других науках. Благодаря этому расширяется инструментарий анализа. LAMBDA сможет решать и некоторые задачи бизнеса. Среди них заведующий новой лабораторией назвал разного рода прогнозы. Так, с помощью анализа Больших данных можно вычислить вероятность того, вернет ли человек выданный ему кредит, или предсказать, уйдет ли клиент от определенной компании.

Пока не так много специалистов и компаний в нашей стране умеют и любят использовать технологии анализа Больших данных в исследовательских целях или в целях оптимизации своего бизнеса. Не все ввиду конкурентно-политических соображений готовы предоставить массивы накопленной информации для анализа. А кроме того, действующий сейчас в России закон об охране частных данных накладывает определенные ограничения в этой области. Но это дело времени, ведь, по словам Устюжанина, «новые технологии влияют на окружение, в котором мы окажемся завтра».

На сегодняшний день в лаборатории уже работают четыре человека: непосредственно руководитель проекта – Андрей Устюжанин и три младших научных сотрудника, которые проводят исследования в области физики. Они же по совместительству являются сотрудниками Yandex Data Factory (новое направление по работе с Большими данными).

И как раз на прошлой неделе, буквально через несколько дней после объявления о создании лаборатории «LAMBDA», компания «АстраЗенека Россия» и Yandex Data Factory объявили о подписании Меморандума о стратегическом сотрудничестве в области Big Data в здравоохранении. В частности, компании планируют запустить ряд проектов в области Больших данных в эпидемиологии, патофизиологии, диагностике и лечении заболеваний в терапевтических областях: инфекционные заболевания, онкология, эндокринология, кардиология, пульмонология, психиатрия…

Желающих работать в лаборатории LAMBDA много. Судя по листочку, пущенному по рядам во время презентации, почти все присутствующие с удовольствием присоединились бы к команде Устюжанина. Но позиций, на которые могут претендовать студенты и аспиранты, не так много. Без конкурса и тщательного отбора кандидатов здесь явно не обойтись. Несмотря на это руководитель лаборатории планирует за февраль набрать нужное количество людей.

Кроме того, в ближайших планах Устюжанина – провести летнюю школу по методам машинного обучения. И, безусловно, LAMBDA будет налаживать связи и с другими лабораториями: проводить совместные семинары, создавать совместные проекты.


Комментарии для элемента не найдены.

Читайте также


Накал страстей по Центробанку пытаются снизить

Накал страстей по Центробанку пытаются снизить

Анастасия Башкатова

Природа инфляции и ее восприимчивость к ключевой ставке вызывают ожесточенные споры

0
446
Проект бюджета 2025 года задает параметры Госдуме-2026

Проект бюджета 2025 года задает параметры Госдуме-2026

Дарья Гармоненко

Иван Родин

Гранты на партийные проекты выданы под выборы только Слуцкому и Миронову

0
316
Всплеск потребления ослабил торможение экономики России

Всплеск потребления ослабил торможение экономики России

Михаил Сергеев

Правительство обещает следить за эффективностью госрасходов

0
370
В парламенте крепнет системный консенсус вокруг президента

В парламенте крепнет системный консенсус вокруг президента

Иван Родин

Володин напомнил депутатам о негативной роли их предшественников в 1917 и 1991 годах

0
418

Другие новости