Каковы преимущества платформы Hadoop 2.0 (YARN)?

Автор: Roger Morrison
Дата создания: 18 Сентябрь 2021
Дата обновления: 1 Июль 2024
Anonim
YARN Tutorial | YARN Architecture | Hadoop Tutorial For Beginners | YARN In Hadoop | Simplilearn
Видео: YARN Tutorial | YARN Architecture | Hadoop Tutorial For Beginners | YARN In Hadoop | Simplilearn

Содержание


Источник: Джим Хьюз / Dreamstime.com

вынос:

YARN - это значительное улучшение по сравнению с Hadoop 1.0. Здесь мы рассмотрим некоторые преимущества, которые он имеет по сравнению с предшественником.

С тех пор как была введена концепция больших данных, она прошла через несколько этапов эволюции. Hadoop был представлен в 2005 году с некоторыми начальными функциями, такими как механизм обработки MapReduce, который позволял выполнять большие объемы обработки данных, распределенные по кластерам. Сам Hadoop претерпел множество изменений и разработал передовые структуры и методы.

YARN является ключевым компонентом Hadoop 2.0. Он в основном управляет ресурсами в кластерной среде. Брокер YARN взаимодействует с вычислительными ресурсами (от имени приложений) и назначает ресурсы каждому приложению на основе различных критериев фильтрации.

В этой статье мы рассмотрим основные преимущества YARN перед Hadoop 1.0.

Что такое YARN Framework?

Yи др ругой рesource Negotiator является ключевым компонентом Hadoop 2.0, который управляет ресурсами в кластерной среде. Инфраструктура Hadoop YARN - это усовершенствованная версия Hadoop 1.0, которая обеспечивает улучшенную производительность, что выгодно для экосистемы Hadoop и всего спектра технологий, связанных с ней. Теперь, когда мы немного лучше знакомы с YARN, давайте более подробно рассмотрим Hadoop 1.0 и YARN.


Ограничения Hadoop 1.0 Framework

Чтобы понять преимущества инфраструктуры YARN, очень важно понять, как работает Hadoop 1.0 и каковы ограничения этой платформы.

Именно здесь появляется роль JobTracker. Он управляет ресурсами кластера и определяет выполнение задания MapReduce. В двух словах, JobTracker планирует и резервирует слоты задач, а также настраивает и контролирует каждую запущенную задачу. Если задача не выполняется, она перераспределяет новый слот для повторного запуска задачи. Как только задача завершена, JobTracker освобождает слот для других задач и очищает временные ресурсы.

Основные недостатки вышеуказанного подхода:

  • Доступность - JobTracker является единственной точкой доступности в Hadoop 1.0. Это означает, что в случае сбоя JobTracker все задачи будут перезапущены по умолчанию.
  • Ограниченная масштабируемость - поскольку JobTracker выполняет несколько задач и работает на одном компьютере, другие доступные компьютеры не используются; следовательно, что приводит к ограниченной масштабируемости.
  • Использование ресурсов - В вышеупомянутом подходе слоты карты и слоты сокращения предопределены. Может случиться так, что один из слотов заполнен, но остальные слоты машины пусты. Поскольку пустые слоты зарезервированы, они будут простаивать, а не идти на компромисс для полных слотов. Это может вызвать проблему использования ресурсов.
  • Запуск приложений, не относящихся к MapReduce - JobTracker - это приложение, созданное для инфраструктуры MapReduce. Проблема возникает, когда не-MapReduce приложение пытается работать в этой среде. Приложение должно соответствовать программированию платформы MapReduce для успешной работы. Некоторые из общих проблем, с которыми сталкиваются из-за этого, включают проблемы с:
    • Специальный запрос
    • Анализ в реальном времени
    • проходной подход
  • Сбой в каскадном режиме. Одна из основных проблем в этой среде возникает, когда число узлов превышает 4000. В таком случае происходит каскадный сбой, приводящий к повреждению всего кластера.

Вот некоторые из основных ограничений, с которыми сталкиваются при работе с этой структурой. Есть и другие незначительные ограничения, которые не упомянуты. Система YARN была введена для преодоления этих ограничений.


Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

YARN Framework и его преимущества

Инфраструктура YARN, представленная в Hadoop 2.0, предназначена для разделения обязанностей MapReduce и выполнения задачи управления кластером. Это позволяет MapReduce выполнять только обработку данных и, следовательно, оптимизировать процесс.

YARN вводит концепцию центрального управления ресурсами. Это позволяет нескольким приложениям работать на Hadoop, совместно используя общее управление ресурсами.

Некоторые из основных компонентов структуры YARN:

  • ResourceManager - компонент ResourceManager является посредником в кластере для всех ресурсов, присутствующих в этом кластере. Кроме того, этот компонент классифицирован в диспетчере приложений, который отвечает за управление заданиями пользователя. Начиная с Hadoop 2.0 любое задание MapReduce будет рассматриваться как приложение.
  • ApplicationMaster - этот компонент является местом, в котором существует задание или приложение. Он также управляет всеми заданиями MapReduce и завершается после завершения обработки задания.
  • NodeManager - компонент диспетчера узлов выступает в качестве сервера для истории заданий. Он отвечает за обеспечение информации о выполненных работах. Он также отслеживает задания пользователей вместе с их рабочим процессом для определенного узла.

Учитывая, что инфраструктура YARN имеет разные компоненты для управления различными задачами, давайте посмотрим, как она противостоит ограничениям Hadoop 1.0.

  • Лучшее использование ресурсов - платформа YARN не имеет фиксированных слотов для задач. Он предоставляет центральный менеджер ресурсов, который позволяет вам совместно использовать несколько приложений через общий ресурс.
  • Запуск приложений, не относящихся к MapReduce. В YARN возможности планирования и управления ресурсами отделены от компонента обработки данных. Это позволяет Hadoop запускать различные типы приложений, которые не соответствуют программированию платформы Hadoop. Кластеры Hadoop теперь способны выполнять независимые интерактивные запросы и выполнять лучший анализ в реальном времени.
  • Обратная совместимость - YARN поставляется как обратно-совместимая среда, что означает, что любое существующее задание MapReduce может быть выполнено в Hadoop 2.0.
  • JobTracker больше не существует - двумя основными ролями JobTracker были управление ресурсами и планирование заданий. С введением структуры YARN они теперь разделены на два отдельных компонента, а именно:
    • NodeManager
    • ResourceManager

Заключение

Внедрение инфраструктуры YARN упростило создание приложений для разработчиков Hadoop. Теперь приложения больше не должны быть реализованы с помощью сторонних инструментов. YARN - это огромное изменение, которое позволит пользователям использовать Hadoop 2.0 для создания приложений и более эффективного управления данными. Со временем появятся дальнейшие разработки для повышения удобства использования Hadoop. На данный момент инфраструктура YARN будет играть решающую роль в решении существующих проблем и создании среды, не требующей хлопот, которая более универсальна, чем предыдущая версия модели MapReduce.