7 вещей, которые нужно знать о Hadoop

Видео: Максим Феопентов - Методы разработки витрин данных в Hadoop

Содержание

Как Hadoop получил свое начало?
Что такого важного в Hadoop?
Что такое схема на чтение?
Что такое улей?
Какие данные анализирует Hadoop?
Можете ли вы привести реальный пример Hadoop?
Hadoop уже устарел или просто трансформируется?

Источник: Pressureua / Dreamstime.com

вынос:

Hadoop уже несколько лет помогает анализировать данные, но, вероятно, вы не знаете об этом больше, чем несколько вещей.

Что такое Hadoop? Это желтый игрушечный слон. Не то, что вы ожидали? Как насчет этого: Дуг Каттинг - один из создателей этого проекта программного обеспечения с открытым исходным кодом - позаимствовал имя у своего сына, который случайно назвал своего игрушечного слоненка Hadoop. В двух словах, Hadoop - это программная среда, разработанная Apache Software Foundation, которая используется для разработки распределенных вычислений с интенсивным использованием данных. И его ключевым компонентом в других модных читателях может никогда не стать достаточно: большие данные. Вот семь вещей, которые вы должны знать об этом уникальном, свободно лицензируемом программном обеспечении.

Как Hadoop получил свое начало?

Двенадцать лет назад Google создал платформу для управления огромными объемами данных, которые он собирал. Как это часто делает компания, Google сделал свой дизайн доступным для общественности в виде двух статей: Google File System и MapReduce.

В то же время Даг Каттинг и Майк Кафарелла работали над новой поисковой системой Nutch. Они также боролись с тем, как обрабатывать большие объемы данных. Затем два исследователя узнали о работах Google. Это счастливое пересечение изменило все, представив Cutting и Cafarella в лучшей файловой системе и способе отслеживать данные, что в конечном итоге привело к созданию Hadoop.

Что такого важного в Hadoop?

Сегодня сбор данных проще, чем когда-либо. Наличие всех этих данных представляет много возможностей, но есть и проблемы:

Огромные объемы данных требуют новых методов обработки.
Захваченные данные представлены в неструктурированном формате.

Чтобы преодолеть трудности, связанные с манипулированием огромным количеством неструктурированных данных, Cutting и Cafarella предложили решение, состоящее из двух частей. Чтобы решить проблему количества данных, Hadoop использует распределенную среду - сеть обычных серверов - создавая кластер параллельной обработки, который обеспечивает большую вычислительную мощность для выполнения поставленной задачи.

Затем им пришлось работать с неструктурированными данными или данными в форматах, которые стандартные системы реляционных баз данных не могли обработать. Cutting и Cafarella разработали Hadoop для работы с любыми типами данных: структурированными, неструктурированными, изображениями, аудиофайлами и даже. Этот технический документ Cloudera (интегратор Hadoop) объясняет, почему это важно:

«Обеспечивая возможность использования всех ваших данных, а не только того, что находится в ваших базах данных, Hadoop позволяет вам обнаруживать скрытые отношения и выявлять ответы, которые всегда были просто недосягаемы. Вы можете начать принимать больше решений на основе надежных данных, а не догадок, и посмотреть на полные наборы данных, а не только образцы и резюме ".

Что такое схема на чтение?

Как упоминалось ранее, одним из преимуществ Hadoop является его способность обрабатывать неструктурированные данные. В каком-то смысле это «удар ногой по дороге». В конечном счете данные нуждаются в некоторой структуре для анализа.

Вот где схема на чтение вступает в игру. Схема при считывании - это слияние того, в каком формате находятся данные, где найти данные (помните, что данные разбросаны по нескольким серверам) и что нужно сделать с данными - непростая задача. Говорят, что для манипулирования данными в системе Hadoop требуются навыки бизнес-аналитика, статистики и программиста на Java. К сожалению, таких людей не так много.

Что такое улей?

Если Hadoop собирается добиться успеха, работа с данными должна быть упрощена. Итак, толпа с открытым исходным кодом приступила к работе и создала Hive:

«Hive предоставляет механизм для проецирования структуры на эти данные и запроса данных с использованием языка, похожего на SQL, называемого HiveQL. В то же время этот язык также позволяет традиционным программистам карт / редукторов подключать свои собственные преобразователи и редукторы, когда это неудобно или неэффективно, чтобы выразить эту логику в HiveQL. "
Hive обеспечивает лучшее из обоих миров: персонал базы данных, знакомый с командами SQL, может манипулировать данными, а разработчики, знакомые со схемой процесса чтения, все еще могут создавать настраиваемые запросы.

Какие данные анализирует Hadoop?

Веб-аналитика - это первое, что приходит на ум, анализируя веб-журналы и веб-трафик с целью оптимизации веб-сайтов. Например, определенно занимается веб-аналитикой, используя Hadoop для сортировки терабайтов данных, которые компания накапливает.

Компании используют кластеры Hadoop для анализа рисков, выявления мошенничества и сегментации клиентской базы. Коммунальные компании используют Hadoop для анализа данных датчиков со своих электрических сетей, что позволяет им оптимизировать производство электроэнергии. Крупные компании, такие как Target, 3M и Medtronics, используют Hadoop для оптимизации распределения продуктов, оценки бизнес-рисков и сегментации клиентской базы.

В Hadoop инвестируются и университеты. Брэд Рубин, адъюнкт-профессор программ магистратуры в области программного обеспечения Университета Сент-Томас, отметил, что его опыт в Hadoop помогает сортировать обильные объемы данных, собираемых исследовательскими группами в университете.

Можете ли вы привести реальный пример Hadoop?

Один из наиболее известных примеров - TimesMachine. В «Нью-Йорк Таймс» есть коллекция полностраничных газетных изображений TIFF, соответствующих метаданных и статьи с 1851 по 1922 годы, насчитывающие терабайты данных. Дерек Готфрид из NYT, использующий систему EC2 / S3 / Hadoop и специализированный код:

«Вложено 405 000 очень больших изображений TIFF, 3,3 миллиона статей в SGML и 405 000 файлов XML, отображающих статьи в прямоугольные области в файлах TIFF. Эти данные были преобразованы в более удобные для Интернета 810 000 изображений PNG (миниатюры и полные изображения) и 405 000 файлов JavaScript. "
Используя серверы в облаке Amazon Web Services, Готфрид отметил, что они смогли обработать все данные, необходимые для TimesMachine, менее чем за 36 часов.

Hadoop уже устарел или просто трансформируется?

Hadoop существует уже более десяти лет. Многие говорят, что это устарело. Один эксперт, доктор Дэвид Рико, сказал, что «ИТ-продукты недолговечны. В годы собак продуктам Googles около 70, а Hadoop - 56».

В том, что говорит Рико, может быть доля правды. Похоже, что Hadoop проходит капитальный ремонт. Чтобы узнать больше об этом, Рубин пригласил меня на собрание группы пользователей Hadoop в Twin Cities, и темой обсуждения было введение в YARN:

«Apache Hadoop 2 включает новый механизм MapReduce, который имеет ряд преимуществ по сравнению с предыдущей реализацией, включая лучшую масштабируемость и использование ресурсов. Новая реализация построена на общей системе управления ресурсами для запуска распределенных приложений под названием YARN».Hadoop пользуется большим спросом в кругах по управлению базами данных и контентом, но вокруг него все еще много вопросов и как его лучше всего использовать. Это всего лишь несколько. Если у вас есть больше, им наш путь. Хорошо ответьте на лучшие из них на Techopedia.com.