5 ключевых областей, где большие данные оказывают большое влияние

Содержание

Как это произошло
Большие данные, большие возможности
Что посмотреть

Источник: Nmedia /Dreamstime.com

вынос:

Большие данные - это большой бизнес повсюду, но несколько конкретных областей, наиболее эффективно использующих эту технологию.

Когда я начал эту статью, я планировал перечислить различные типы платформ больших данных. Но после трех дней попыток объединить все предложения больших данных - реляционные и нереляционные, SQL против NoSQL и базы данных против фреймворка - в некотором подобии порядка, я решил избежать этого беспорядка.

Чтобы добавить оскорбление раны, я надеялся представить человека, который придумал термин «большие данные» как часть статьи. Но я даже не могу этого сделать. Нет согласованного ответа. На самом деле, существует полномасштабный исследовательский проект, посвященный тому, кто изначально получил большие данные. Вместо этого я собираюсь взглянуть на некоторые из ключевых способов использования больших данных. Это гораздо важнее. И это более интересно и удивительно, чем вы думаете.

Как это произошло

Аналитики, использующие традиционный анализ данных, манипулируют данными годами. Этим же аналитикам в настоящее время трудно справляться с объемом и разнообразием данных, сохраняемых предприятиями, частными организациями и государственными учреждениями.

Введите большие данные, следующий эволюционный шаг в интеллектуальном анализе данных. Большие данные были разработаны для обработки огромных баз данных и множества типов данных, создаваемых в современном цифровом мире. Если «массивно» заставит вас задуматься о Google и обо всех данных, которые он собирает, вы окажетесь в поле зрения. Что может вас удивить, так это то, что Google занимает лишь четвертое место в десятке крупнейших мировых баз данных. По состоянию на январь 2014 года Всемирный центр данных по климату возглавил список с 220 терабайтами данных, и никто не догадывается о размере баз данных, контролируемых определенными правительственными учреждениями.

Конечно, большие данные взлетели, потому что это позволяет манипулировать огромным количеством разнородных данных и открывать удивительные - и удивительно подробные и личные - вещи. Джон Самсер, аналитик отдела кадров, приводит следующий пример:

«Сегодня мы создаем гипотезы и собираем данные. Завтра мы будем делать обратное. Постоянное и постоянное накопление данных позволит нам смотреть на данные до того, как мы сформулируем вопросы. Это означает, что мы получим ответы на вопросы, которые мы не ответили». Не знаю, спросить. Мы не будем мыслить целую кучу вещей, которые мы считаем фактами. "

Конечно, мы все слышали о некоторых жутких способах использования этих данных, таких как способность Targets распознавать беременность молодой женщины еще до того, как ее семья узнает об этом. Но большие данные также используются для гораздо менее зловещих причин. Вот несколько организаций, которые используют его больше всего:

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Одна очевидная область больших данных поможет в безопасном и точном ведении электронных медицинских записей в медицинских организациях. Наличие точных записей обеспечит лучшее обслуживание пациентов и уменьшит количество ошибок. Сфера здравоохранения по понятным причинам медленнее адаптирует большие данные, чтобы соответствовать государственным нормативам, касающимся конфиденциальности пациентов.

Как упоминалось ранее, большие данные известны тем, что дают ответы на незаданные вопросы. В сфере здравоохранения это может означать поиск нового лекарства или лечения, которое не было бы найдено иначе. Согласно McKinsey & Company, большие данные могут сделать следующее в недалеком будущем:

Прогнозирующее моделирование биологических процессов и лекарств становится все более изощренным и широко распространенным.
Пациенты идентифицируются для участия в клинических испытаниях на основе большего количества источников информации, таких как социальные сети.
Испытания контролируются в режиме реального времени для быстрого выявления проблем безопасности или эксплуатации.
Вместо жестких хранилищ данных, которые трудно использовать, данные собираются в электронном виде и легко передаются между различными устройствами.

Большие данные, большие возможности

Хотя большие данные используются в некоторых конкретных областях, они предоставляют возможность всем организациям в следующих областях:

Почти любое вычислительное и сетевое устройство регистрирует данные. Объем регистрируемых данных быстро становится громоздким. Большие данные могут легко управлять этим объемом данных, позволяя администраторам отслеживать сетевую активность, диагностировать проблемы или, в примере, который дал мне Рубин, искать определенные шаблоны сетевого трафика, которые указывают на активность вредоносного ПО.

Если вы читаете эту статью, вполне вероятно, что вы знаете о проблеме Heartbleed, связанной с OpenSSL. Помимо технической проблемы, существует опасение, что уязвимость существует уже несколько лет. Рубин упомянул, что большие данные позволяют сетевым администраторам, работающим с аналитиками данных, создавать программу, которая будет искать вредоносные сердцебиения во всех журналах сети. Этот пост EFF упоминает:

«Любые сетевые операторы, которые имеют обширные журналы пакетов, могут проверять наличие злонамеренных биений, которые чаще всего имеют полезную нагрузку TCP 18 03 02 00 03 01 или 18 03 01 00 03 01 (или, возможно, даже 18 03 03 00 03 01)».

В следующем примере показан пример вывода команды show audit:

Маршрутизатор № шоу аудит

* 14 сентября 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Пользователь:

* 14 сентября 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Пользователь:

* 14 сентября 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: хэш:

95DD497B1BB61AB33A629124CBFEC0FC Пользователь:

* 14 сентября 18: 37: 32.107:% AUDIT-1-FILESYSTEM: Хэш:

330E7111F2B526F0B850C24ED5774EDE Пользователь:

* 14 сентября 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Пользователь:

Если вы следуете меткам времени, интервал времени для всех этих записей был меньше одной секунды. Я бы даже не хотел экстраполировать это на один день, не говоря уже о двух годах!

Что посмотреть

Если вы проверяете объявления о вакансиях, существует острая необходимость в специалистах по большим данным. Я спросил Рубина об этом. Он согласился, отметив, что его ученики были взволнованы их перспективами. Затем я понял, что платформы больших данных, в частности те, которые считаются открытыми, следуют срокам, очень похожим на то, как Linux стал массовым.

Университеты используют открытые версии платформ больших данных, в частности Hadoop, потому что они бесплатны, и студенты могут манипулировать исходным кодом. Таким образом, выпускники, которые заполняют все эти вакансии, предпочтут работать с открытыми платформами, поскольку это то, что они знают лучше всего. Будет интересно посмотреть.