0
17657
Газета Наука Интернет-версия

11.02.2015 00:01:10

Больших данных много не бывает

Тэги: физика, церн, анализ информации, LAMBDA


физика, церн, анализ информации, LAMBDA Андрей Устюжанин не видит ограничений в сферах применения технологий Больших данных. Фото автора

Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ) открыл Лабораторию методов анализа Больших данных (БД). Презентация новой научно-учебной лаборатории, получившей название LAMBDA (LAboratory of Methods for Big Data Analysis), прошла на факультете компьютерных наук НИУ ВШЭ. Завлабом стал руководитель совместных проектов Школы анализа данных Яндекса и Европейского центра ядерных исследований (CERN) Андрей Устюжанин.

Большие данные (англ. Big Data) – это огромные объемы структурированной или неструктурированной информации, такие, к примеру, как статистика социальных сетей, архивы документов, показатели фондовых рынков. Задача специалистов по анализу Больших данных состоит в том, чтобы после обработки этих информационных массивов получить полезные для человека результаты.  Сам этот термин, Big Data, был введен в использование сравнительно недавно – в 2008 году, а как академический предмет анализ Больших данных появился всего два года назад.

Сегодня благодаря работе с Большими данными решаются задачи бизнеса, такие, к примеру, как прогнозирование вероятности возврата кредита или ухода клиента из определенной компании. Но коммерческими интересами использование Big Data не ограничивается – физики Европейского центра ядерных исследований (CERN) используют их для идентификации новых частиц, проверки и опровержения гипотез об устройстве вселенной.

Алгоритмы обработки Big Data анализируют не содержание данных, а взаимосвязи между ними. И в этом смысле они универсальны в приложении к любой области человеческой деятельности. Так, авторы книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» (2014) Виктор Майер-Шенбергер и Кеннет Кукьер приводят любопытные примеры использования технологий анализа Больших данных:

«…к 2013 году количество хранящейся информации в мире составило 1,2 зеттабайта (1,2 х 1021 байт), из которых на нецифровую информацию приходится менее 2%... Если записать данные на компакт-диски и сложить их в пять стопок, то каждая из них будет высотой до Луны»;

«Варианты эндшпиля при оставшихся шести (и менее) фигурах на шахматной доске полностью проанализированы, а все возможные ходы… представлены в виде массивной таблицы, которая в несжатом виде заполнила бы более терабайта данных. Благодаря этому компьютеры могут безупречно вести все важные эндшпили. Ни один человек не сможет переиграть систему»;

«Сеть магазинов Walmart проанализировала старые квитанции продаж и заметила выгодную корреляцию между ураганами и продажами Pop-Tarts (сорт печенья)»;

«…вероятность неисправностей автомобилей, окрашенных в оранжевый цвет, гораздо ниже (примерно наполовину), чем среди остальных автомобилей».

«Наша лаборатория будет практически помогать в использовании методов анализа Больших данных для поиска и извлечения новых знаний и закономерностей, недоступных при использовании других подходов», – пояснил Андрей Устюжанин.

Среди основных задач лаборатории ее руководитель выделил разработку методов анализа Больших данных, применение этих методов в различных областях, в том числе и в фундаментальной физике, а также подготовку людей к работе с этими методами. Стоит отметить, что подготовка будет осуществляться только на практике. Слушатели, проработав в лаборатории, приобретут опыт исследований в области БД и технологий их обработки и анализа.

Фактически речь идет о том, что эпоха Big Data меняет внутреннее содержание таких понятий, как «наука», «научная теория». «Для того чтобы понимать окружающий мир, теперь не обязательно изучать рабочие гипотезы о том или ином явлении… Вместо этого достаточно провести корреляционный анализ на основе Больших данных… вместо подверженного ошибкам подхода на основе гипотез благодаря корреляциям между Большими данными у нас есть подход, построенный на данных. И он может быть менее предвзятым, более точным и наверняка менее трудоемким», – отмечают те же Майер-Шенбергер и Кукьер.

Тем не менее что касается самих методов анализа Больших данных, то, по словам Андрея Устюжанина, они в первую очередь должны внести свой вклад в развитие науки. Первая исследовательская группа лаборатории будет рассматривать задачи, относящиеся к физике частиц: разрабатывать методы для поиска новых частиц, изучения их свойств.

Однако методы, которые будет разрабатывать лаборатория, – это «метаобласть», а значит, могут быть использованы не только в физике, но и в других науках. Благодаря этому расширяется инструментарий анализа. LAMBDA сможет решать и некоторые задачи бизнеса. Среди них заведующий новой лабораторией назвал разного рода прогнозы. Так, с помощью анализа Больших данных можно вычислить вероятность того, вернет ли человек выданный ему кредит, или предсказать, уйдет ли клиент от определенной компании.

Пока не так много специалистов и компаний в нашей стране умеют и любят использовать технологии анализа Больших данных в исследовательских целях или в целях оптимизации своего бизнеса. Не все ввиду конкурентно-политических соображений готовы предоставить массивы накопленной информации для анализа. А кроме того, действующий сейчас в России закон об охране частных данных накладывает определенные ограничения в этой области. Но это дело времени, ведь, по словам Устюжанина, «новые технологии влияют на окружение, в котором мы окажемся завтра».

На сегодняшний день в лаборатории уже работают четыре человека: непосредственно руководитель проекта – Андрей Устюжанин и три младших научных сотрудника, которые проводят исследования в области физики. Они же по совместительству являются сотрудниками Yandex Data Factory (новое направление по работе с Большими данными).

И как раз на прошлой неделе, буквально через несколько дней после объявления о создании лаборатории «LAMBDA», компания «АстраЗенека Россия» и Yandex Data Factory объявили о подписании Меморандума о стратегическом сотрудничестве в области Big Data в здравоохранении. В частности, компании планируют запустить ряд проектов в области Больших данных в эпидемиологии, патофизиологии, диагностике и лечении заболеваний в терапевтических областях: инфекционные заболевания, онкология, эндокринология, кардиология, пульмонология, психиатрия…

Желающих работать в лаборатории LAMBDA много. Судя по листочку, пущенному по рядам во время презентации, почти все присутствующие с удовольствием присоединились бы к команде Устюжанина. Но позиций, на которые могут претендовать студенты и аспиранты, не так много. Без конкурса и тщательного отбора кандидатов здесь явно не обойтись. Несмотря на это руководитель лаборатории планирует за февраль набрать нужное количество людей.

Кроме того, в ближайших планах Устюжанина – провести летнюю школу по методам машинного обучения. И, безусловно, LAMBDA будет налаживать связи и с другими лабораториями: проводить совместные семинары, создавать совместные проекты.


Комментарии для элемента не найдены.

Читайте также


«Токаев однозначно — геополитический гроссмейстер», принявший новый вызов в лице «идеального шторма»

«Токаев однозначно — геополитический гроссмейстер», принявший новый вызов в лице «идеального шторма»

Андрей Выползов

0
2103
США добиваются финансовой изоляции России при сохранении объемов ее экспортных поставок

США добиваются финансовой изоляции России при сохранении объемов ее экспортных поставок

Михаил Сергеев

Советники Трампа готовят санкции за перевод торговли на национальные валюты

0
4811
До высшего образования надо еще доработать

До высшего образования надо еще доработать

Анастасия Башкатова

Для достижения необходимой квалификации студентам приходится совмещать учебу и труд

0
2635
Москва и Пекин расписались во всеобъемлющем партнерстве

Москва и Пекин расписались во всеобъемлющем партнерстве

Ольга Соловьева

Россия хочет продвигать китайское кино и привлекать туристов из Поднебесной

0
3033

Другие новости