«Столько данных! Как тут ума не занимать?!» Фото Fotolia/PhotoXPress.ru
Когда в области технологий, внедряемых в жизнь человечества, случаются превращения количества в качество, это знаменует не просто революционные переходы, а нечто большее, не имеющее объяснения на языке аналогов.
Примером может служить появление квантовой механики. С одной стороны, исследователи всего лишь изменили количественную характеристику исследуемых объектов – их размер. С другой же стороны, полученный из таких очень малых объектов микромир оказался качественно иным, поскольку здесь действуют законы, немыслимые в нашем обычном мире. В привычной для людей реальности мяч не может в один миг залететь в одни и другие ворота футбольного поля. А в микромире квантовой механики движение частиц происходит по совершенно иным законам.
Это сравнимо с тем, что происходит сегодня в информационном пространстве. От просто данных мы переходим к миру больших данных (Big Data), где действуют совершенно иные законы. И это первое, что мы должны четко понимать. Сразу же скажу, что вокруг этого термина, его значений и даже правильного написания до сих идут споры. Для ясности изложения предлагаю в своих заметках использовать словосочетание «большие данные».
Так что же это такое – иные законы мира больших данных?
Для того чтобы это объяснить, надо обратиться к такому образному понятию, как «черные лебеди», под которым исследователи договорились понимать крайне маловероятные и потому слабо предсказуемые события, обладающие огромной силой воздействия.
Но я бы предложил для объяснения ввести понятие «черные гуси-лебеди». Так мы обозначим те события, которые в привычном нам мире являются просто невероятными и потому в принципе не предсказуемы. Причина же этого – отсутствие в человеческой логике представлений о причинно-следственных связях, способных породить такие события. Однако «черные гуси-лебеди» могут появиться там, где действуют законы больших данных.
Мы можем, например, подбросить 50 раз монетку, и не исключено, что все разы выпадет орел. Случай редкий, но в нашем мире возможный. А какие же события могут происходить в мире больших данных, но не могут случиться в окружающей нас реальности?
Это можно объяснить через такое понятие, как датафикация (datafication – англ). Так называется процесс поступления в какую-то область человеческой деятельности не просто данных, а огромные, можно сказать, неисчислимые объемы данных.
«Купи мужу галстук», – шепнула система
Возьмем такую область, как торговля. Уже прошло немало лет с той поры, когда люди, работающие в этой сфере, заметили, что все действия в силу торговой специфики для учета и контроля записываются, а значит – фиксируются. Со временем эту массу информации пришлось куда-то сбрасывать, то есть складировать в хранилищах данных. Еще до торговцев накапливать моря данных стали финансисты, затем – операторы сотовой связи, которые тоже стали грузить свои архивы, где содержится огромная летопись – кто, когда, кому звонил, писал эсэмэски, совершал платежи, пользовался социальными сетями...
И вот в какой-то момент некий пытливый ум стал размышлять над этим, так сказать, ненужным массивом данных: что, если в этой свалке есть что-то рациональное, о чем мы пока не знаем? А вдруг из всего этого «старья» можно будет извлечь какое-то иное качество, новые смыслы, невидимую доселе пользу?
Поэтому датафикация привела к тому, что эти данные решили попробовать обрабатывать. Но как?
Как могли – вначале старыми, проверенными статистическими методами: анализ временных рядов, поиск корреляций и т.д. Конечно, и на этом пути можно было получать какие-то результаты. Скажем, изучая особенности психологии покупательниц, кто-то подумал, что мужские галстуки, наверное, лучше всего будут продаваться возле секций женского белья.
А почему бы и нет? Всякая женщина, купившая дорогое белье, додумается до того, что прийти домой без обновки для мужа будет несколько неудобно.
Таким образом, инновация родилась из рациональной гипотезы. Затем решили ее проверить: попробовали разместить галстуки не в отделе мужских костюмов, а на территории женских покупательских интересов. И вот спустя время с помощью накопленных данных о покупках была доказана правота и эффективность выдвинутой гипотезы.
Как будто все прекрасно. Но это всего лишь фрагмент использования психологических особенностей определенной группы покупателей. Таких гипотез можно выдвинуть немало, и это повсеместно делается.
Однако в мире больших данных все иначе. Здесь существует, можно сказать, базовый закон, который исключает выдвижение каких-либо гипотез. Это может нарушить процесс обработки информации, который должен протекать без подобных заявок, установок, версий извне.
Не так давно в работе над большими данными появилась концепция глубинного машинного обучения (Deep Learning), основанного на принципах работы человеческого мозга, в которой, как известно, важнейшую роль играют нейронные сети. Так вот по аналогии с ними создаются математические модели для создания многослойных глубинных сетей, которые в мире больших данных начинают находить совершенно новые связи и закономерности.
А это значит, что такие процессы не нуждаются в регуляции извне. Им не надо задавать никаких гипотез, высказывать пожелания и просьбы, осуществлять коррекцию и задавать направление. Нужно лишь поставлять и поставлять все новые и новые данные.
Но бывает так, что за какой-то период интенсивной поставки данных ничего не происходит. Значит, данных много, но они недостаточно разнообразны. Вот тут люди должны задуматься над разнообразием посылаемых сведений. Например, найти данные о том, кто такие люди, живущие в радиусе пяти километров от торгового центра. Обозначить их социальные статусы или политические предпочтения. А может, сообщить, сколько в районе аллергиков, а заодно и болельщиков «Спартака»...
Любому несведущему человеку все это может показаться форменным безумием, но история знает немало случаев, когда революционные идеи в разных отраслях жизни принимались за симптомы помешательства.
Поэтому лучше не задумываться, а грузить и грузить данные, пока из «машины» не покажется «гусь-лебедь». И тогда выяснится, что растущие мегаобъемы информации начинают показывать результаты, и прежде всего в тех областях, где представлено в самых разных функциях множество людей. Это могут быть торговля, здравоохранение, выборы, всевозможные опросы общественного мнения. Все это есть «питательная среда» для работы системы больших данных.
Вещизм как серьезная наука
По мере того как человечество накапливает в разных областях путем датафикации огромные объемы разной информации, происходят открытия неведомых ранее тенденций, неожиданных закономерностей, качественно иных законов. Вот, например, появился и интенсивно стал осваиваться пользователями «Интернет вещей». Это такой феномен, который уже перекрывает по объему многие другие зоны интересов людей в Сети. Достаточно сказать, что сегодня в мире количество процессоров уже на несколько порядков превышает количество жителей на планете.
А эти процессоры, они же «поголовно» работают на большие данные, обрабатывая, маркируя, интерпретируя всевозможную информацию, которая оказывается позже в хранилищах Big Date, где ею уже занимается система, работающая по своим неведомым нам алгоритмам.
При этом надо признать, что сегодня законы и закономерности, вырабатываемые на основе больших данных, действительно непостижимы и могут казаться вздором, фальсификацией, имитацией, на которую только зря тратятся средства.
Но тогда скажите, какая польза была людям, когда в свое время было объявлено о странном законе квантового мира, согласно которому электрон, оказывается, может одновременно пройти через две щели в медной пластинке, проявляя, опять же одновременно, свойства материи и свойства волны?
Между тем на этом чудном законе построена вся современная электроника!
Такую же значимость в итоге начнут демонстрировать закономерности, которые будут рождаться в мире больших данных. И кое-что мы наблюдаем уже сейчас.
Как известно, успешная продажа товара есть главная проблема рыночной экономики. Товар может быть любым, об этом еще Маркс говорил. Главное – его успешная, прибыльная продажа.
Эта задача раньше решалась исключительно через персональный контакт продавца с покупателем. Так родилось целое искусство убеждать, очаровывать, веселить, делать все, чтобы акт купли-продажи состоялся. Позже появились технологии рекламы.
А теперь на смену всем этим приемам и методам пришли возможности больших данных, которые могут дать вам о потенциальном покупателе столько сведений, сколько вы не знаете о самом себе. Но и о вас, будьте спокойны, Big Data позаботится.
Таким образом, глубинное обучение нейронных сетей с использованием больших данных – это лучший консультант по маркетингу. Любой продавец сможет получить детальную консультацию о том, какой товар, когда и сколько надо продавать и какие условия при этом необходимо учесть.
Какому-то владельцу магазина придет письмо на электронную почту, какому-то покупателю будет звонок на мобильный, и робот сделает ему очень интересное предложение, кому-то эсэмэска поступит прямо при входе в торговые ряды... Короче говоря, весь этот процесс будет постоянно поддерживаться неустанной работой больших данных.
Если брать не Россию, а, скажем, западные страны, то уже сегодня они, можно сказать, лихорадочно датафицируются. В области здравоохранения это означает, что все данные, какие только есть в медицинских картах, включаются в объемы больших данных. Туда же вносится вся информация об образе жизни каждого пациента, его социальных условиях, вредных и здоровых привычках, сведения о наследственных болезнях.
Там собираются результаты всех возможных мониторингов – сколько в день человек ходит пешком, сколько съедает калорий, как спит, какие лекарства принимает и т.д. и т.п. Этому помогают средства персонального самоконтроля, которые в развитых странах уже широко используются.
Там же широко проводятся генетические обследования граждан, и такая информация тоже попадает в систему больших данных, где они, возможно, станут частью алгоритмов по разработке средств борьбы с различными заболеваниями.
Фейсбук видит человека насквозь и даже глубже
Если взять взрослое население современной страны, то обнаружится, что количество коммуникационных связей постоянно растет в геометрической прогрессии. Подсчитано, что молодые люди в среднем обращаются к своему телефону 6–8 раз в час. И это выражается в самых разных контактах: разговорах, письмах, запросах информации, играх и т.д. При этом мы связаны не только с другими людьми, но и с определенной информацией. После такого контакта начинается уже помимо нашей воли обмен сведениями об этой информации с другими участниками огромного числа пользователей из разных сообществ.
Весь этот клубок сведений, связей, событий постоянно увеличивается и непрерывно анализируется силами Big Data. Безусловно, есть в этих объемах подавляющий массив информации, которая в обычном мире кажется нам ерундой, не относящейся к делу. Но эта логика дает слабину в сравнении с внутренней логикой больших данных.
Многие из серьезных людей, я уверен, считают, что социальные сети – это какой-то Вавилон мнений, ярмарка тщеславия, парад глупостей и вообще существование в этой коммуникационной среде – пустая трата времени.
Машинный зал больших данных трудно принять за свалку информационного мусора Фото Reuters |
В этом есть много справедливого. И есть право каждого интересоваться социальными сетями или найти себе занятие поинтереснее. Но я не о людях.
Знаете ли вы, что при определенных алгоритмах анализ информации социальных сетей с помощью больших данных может с 90-процентной точностью определить, кто из пользователей и за кого будет голосовать на президентских или парламентских выборах? Данных для получения такого прогноза там вполне хватает. Просто система должна их перетрясти и уложить в свои нейронные многослойные сети в такой алгоритм, который и выдаст этот результат. Таким образом, переход от просто данных к Big Date происходит уже сейчас.
А дальше произойдет такая же адаптация к новой реальности, как это было в свое время с не понятной никому квантовой физикой. Простые люди же не стали в массовом порядке читать, что написал по этому поводу Вернер Гейзенберг и что сказал по этому поводу Нильс Бор.
Да, человечество пользуется всем тем, что дала ему квантовая механика, но почти никому из нас не хочется вникать в ее глубины.
Классики теории больших данных тоже не станут властителями дум человечества. Больше того, рискнем предположить, что для Big Date они тоже не субъекты, а скорее лишь такие же объекты датафикации, как и миллиарды обычных людей.
В тех областях, где больших данных будет накоплено особенно много (финансы, связь, торговля, взаимоотношения людей, медийная сфера, социальные сети, социологические институты и т.д.), все это будет обрабатываться и к этой информации продолжат добавляться колоссальные базы «Интернета вещей». И это не только ради успешной торговли вещами: в конце концов, самим большим данным вещи, которые покупают люди, неинтересны. Им важнее тот объем данных о покупателях, из которого можно создавать новые алгоритмы, закономерности, где можно видеть неожиданные связи и противоречия. И это будет переворот в областях – управления, принятия решений и воздействия на выбор отдельного человека.
«Ой, прогноз, прогноз, не морочь меня...»
Часто возникает вопрос: а как этим всем люди смогут пользоваться в массовом порядке?
Это будет осуществляться через поиск простых и понятных интерфейсов. Нас же сегодня не удивляет, как мы пользуемся поисковиками типа Google, Yandex и пр. Каждый так же, как и сегодня, сможет искать что-то свое. Как это делается уже сейчас через алгоритм PageRank, вычисляющий «важность» или «авторитетность» любого сайта (или даже каждой его страницы) путем подсчета «важности» ссылок, имеющихся в Интернете на этот сайт (или страницу). Используемые алгоритмом PageRank большие данные рождаются из миллионов поисковых запросов, помноженных на миллиарды ссылок, связывающих сайты между собой в гигантской Всемирной сети.
Для того чтобы понять, где мы находимся в области постижения больших данных и что сейчас происходит, нам не обойтись и без такого пограничного в этой области понятия, как предиктивная аналитика.
Предиктивная, или прогностическая, аналитика (Predictive analytics) – это, как сказано в одном из определений, прежде всего множество методов статистики, анализа данных, которые используются для изучения текущих и прошлых данных/событий, влияющих на прогноз данных/событий в будущем.
Предиктивная аналитика не отвечает на вопрос статистики «Что уже произошло?» или на более сложный «Почему это произошло?». Хотя статистика уже вышла на уровень прогнозирования и стала оперировать вопросом «А что произойдет?». Прогнозы получались не всегда точными, тем не менее это шаг вперед.
Но время выдвигает новые задачи. Например, как определить уровень интеллектуальности отдельного человека или команды, ответственных за принятие важных для региона, страны решений?
Специалисты говорят, это не так уж и сложно. Важно определить способность лидера или группы правильно предвидеть будущее и уже сегодня выбрать точные решения и позиционирующие действия. Тот, кто умеет это делать, как минимум хорошо играет и в шахматы, и в футбол. А для того чтобы обеспечить человеку или группе, принимающим решения, определенные рекомендации, как раз и нужны методы предиктивной прогностической аналитики.
Все, кто смотрит кино или читает книги онлайн, знают, что как только открываешь какой-то фильм или текст, так сразу же всплывают рекомендации системы, которая уже заготовила для пользователя кейс с другими произведениями на эту тему. И чем дальше вы будете углубляться в интересующую вас тему, тем активнее будут появляться рекомендации.
Таким же образом работает предиктивная прогностическая аналитика. Она может давать вам рекомендации по приему лекарств, дозированию физической нагрузки, объяснить простейшие способы ориентирования на местности. Правда, в последнем случае вас может удивить, как система узнала, что вы собираетесь за грибами.
Так же она персонифицирует каждого человека со всей его базой уникальных данных и применяет к нему как индивидуальные советы, так и типичные, если речь пойдет, скажем, о том, как надо вести себя, заблудившись в лесу.
Теперь надо сказать о том, какие проблемы встречаются в самых больших данных. Дело в том, что, постепенно внедряясь в нашу жизнь, Big Data как понятие стало уже устаревать. Все актуальнее становится в этом смысле появившаяся и набирающая силу Smart Data.
Потому что, как выяснилось, данных накапливается так много, что, если мы будем и дальше валить в Big Data все подряд, система может оказаться настолько загруженной, что ей не хватит мощности самых сильных вычислителей.
В результате исследователи пришли к выводу, что на фоне лавинного роста объемов информации надо научиться эти данные фильтровать, очищать, что и подразумевает Smart (умная, сообразительная) Data.
Этого очищения потребовала предиктивная прогностическая аналитика, которая лучше себя проявляет на стыке того, что представляет собой Smart Data, и того глубинного машинного обучения (Deep Learning), в котором использованы принципы работы нейронных сетей человеческого мозга.
Задача человека – «подтащить» как можно больше данных, поставить правильные (!) фильтры, отвечающие критериям, которые выдвигает Smart Data, ввести необходимые алгоритмы... Дальше предиктивная система сама начнет вам говорить, что нужно делать уже сегодня для того, чтобы эффективно воздействовать на желаемое будущее.
Однако необходимость изменения технологии ввода данных, которых требовала Smart Data, осознали не все. Дело в том, что на определенном этапе занятие большими данными в России стало очень модным, и это отразилось на качестве специалистов.
Иным нашим «креативным профи» показалось, что стоит лишь свалить куда следует массу данных, поставить необходимые программы – и сразу же появятся результаты. Они и впрямь появились. Но в восьми из десяти проектов оказывались, мягко говоря, обескураживающими и не оправдали даже тех средств, что были в них вложены.
То есть те, кто первыми сочли себя самыми продвинутыми, не увидели главной инновации и поэтому не поняли качественного различия между понятиями Big Data и Smart Data. В последнем случае надо было данные правильно отфильтровать, что было отдельной, самостоятельной задачей. Но вместо этого решили – по аналогии с плохим автовладельцем – заливать дизельное топливо в незнакомый новый двигатель, а потом стали удивляться, что машине это не нравится.
Вторая проблема связана с ментальностью руководства. Она особенно тяжело решается у нас, где, пожалуй, ни один руководитель не сможет понять, как это он, начальник, не должен поставить каким-то там большим данным задачу. А услышав, что система все сделает сама, в лучшем случае такой шеф решит «посоветоваться наверху». На Западе понимание специфики пришло к тамошнему начальству гораздо быстрее.
Третья проблема – технологическая. Требуются весьма неожиданные, можно сказать, экзотические алгоритмы, для того чтобы обеспечить очистку данных, построить нейронную систему глубинных сетей. Должен сказать, что даже крупнейшие компании Запада вроде IBM и Microsoft пока еще отстают, скажем, от таких небольших, но эффективных фирм вроде Predictix и Blue Yonder, сумевших значительно продвинуться в развитии технологий.
Между «большим братом» и безумным террористом
Очень часто в самых разных аудиториях экспертам задаются вопросы, связанные не только с большими данными, но и с теми опасностями, которые часто возникают в общественном сознании в связи с тем, что современные технологии позволяют знать о любом человеке любой страны практически все. Это позволяет совершенствовать безопасность страны и общества. А с другой стороны – открывает кому-то широкие возможности для злоупотребления этими знаниями, для тотальной слежки, для вторжений в частную жизнь граждан и т.д. Все зависит от того, на каких принципах построено то или иное государство.
«Большой брат следит за тобой» – эта фраза из романа-антиутопии «1984» Джорджа Оруэлла вспоминается всякий раз, когда речь заходит о тоталитарных методах укрепления власти, в том числе и об использовании технологий, позволяющих постоянно наблюдать за жизнью всех граждан. Книга вышла в 1949 году.
А в 2011 году в США появился сериал Джонатана Нолана «Person of Interest». В российском переводе он называется «В поле зрения».
Сериал открывается такими словами: «За вами наблюдают. Правительство разработало секретную систему – «Машину», которая следит за вами ежедневно и ежечасно. Я знаю об этом, потому что я ее создал. Я спроектировал «Машину» для борьбы с терроризмом, но она видит все преступления, связанные с обычными людьми. Такими, как вы».
Это, конечно, был художественный ответ мировому терроризму. «Машина» в фильме не посягала на свободу слова – она пресекала возможные будущие злодеяния.
Так вот примерно лет 10 назад я узнал о неком реальном проекте под названием Palantir. Эта система для анализа и визуализации данных была разработана калифорнийской компанией Palantir Technologies. Одного из ее главных инвесторов я давно и хорошо знаю. Это Питер Тиль, основатель PayPal и первый инвестор Facebook.
Сейчас это самый дорогой в мире стартап по обработке больших данных в области безопасности. Palantir умеет делать следующее: он сваливает в одну кучу информации данные о транспортных перелетах и переездах, о всех возможных коммуникациях, банковских транзакциях, покупках и т.д. и т.п.
Переваривая таким образом все эти сведения, он умудряется вычленять из гигантских потоков такую информацию, по которой с очень большой степенью вероятности можно предсказать, где, когда и как может произойти террористический акт. И надо сказать, что прорывная математика от компании Palantir показывает очень высокую эффективность.
Вот, пожалуй, самый простой, но конкретный пример.
Некий автомобиль, принадлежащий гражданке США, раз в три недели по четвергам заправлялся на одной и той же АЗС, даже если был полностью заправлен накануне. Эта странность в терминах системы Palantir определяется как «нетипичная корреляция». Замеченная странность не воспринимается как сигнал тревоги. Но после шестимесячных наблюдений (а это вовсе не оперативная слежка, а всего лишь анализ данных, который проводился даже не в режиме онлайн) на той же заправке в тот же день дважды заправился другой автомобиль, принадлежащий человеку, которого Palantir также зафиксировал и выдал информацию о том, что некогда второй водитель перевел деньги компании, подозреваемой в связях с террористами. Нетипичная корреляция уже перестала казаться системе безобидной.
Palantir показывает потенциальную опасность, которая резко усиливается сообщением о том, что выделенные системой водители – муж и жена. Дальше была операция спецслужб, детали которой неизвестны, но было обнародовано известие о предотвращении весьма серьезного теракта на территории США.
Вообще в мире есть сегодня три взаимодополняющих метода выявления и предупреждения террористической опасности. Первый по эффективности – агентурная работа.
Второй – фейсконтроль, (условное название), успешно применяемый в Израиле. Опыт многих лет научил спецслужбы страны находить людей, обладающих природным даром засекать в толпе террориста по особой мимике или нетипичному поведению. Такие люди работают в аэропортах, кинотеатрах и универмагах, сопровождают рейсовые автобусы.
Это, конечно, неплохой метод для маленькой страны.
Нам же больше всего подходит третий, технологический, путь: заранее узнать о готовящемся теракте и предупредить его.
История контртеррористических IT-систем начиналась после Второй мировой войны с высокотехнологичной слежки. Самым известным был созданный американцами и британцами Echelon. Его задачей был перехват телефонных разговоров, телеграфного трафика и радиообмена. Славы своим засекреченным создателям система не принесла в силу своей примитивности.
Установка в 90-е и нулевые годы в США и европейских городах множества цифровых камер тоже оказалась малоэффективной, но очень затратной. Реальный IT-прогресс наметился, когда появилась возможность накапливать и анализировать большие данные.
Но роль технологий Big Data к математике и программированию не сводится: важная задача остается за человеком. Когда Palantir запустила свою систему в «боевом» режиме, началось огромное число ложных срабатываний. Потребовались профессионалы из разных сфер деятельности, информация о которых проходит через систему. Это были оперативники, брокеры, лингвисты и т.д.
И этот третий путь предупреждения терактов – технологический, единственно возможный для России.
И он тоже связан с большими данными.
А это значит, что мы уже сегодня располагаем качественно новым подходом, меняющим привычную схему интерпретации окружающего мира: оценку произошедшего, прогноз грядущего, все решения о котором большие данные помогут нам принять еще в нашем нелегком настоящем.