Экосистема Hadoop

Автор: Roger Morrison
Дата создания: 18 Сентябрь 2021
Дата обновления: 19 Июнь 2024
Anonim
Очень кратко про Hadoop и Spark
Видео: Очень кратко про Hadoop и Spark

Содержание

Определение - Что означает экосистема Hadoop?

Экосистема Hadoop относится к различным компонентам программной библиотеки Apache Hadoop, а также к аксессуарам и инструментам, предоставляемым Apache Software Foundation для этих типов программных проектов, и к способам их совместной работы.


Hadoop - это основанная на Java инфраструктура, которая чрезвычайно популярна для обработки и анализа больших наборов данных.

Введение в Microsoft Azure и Microsoft Cloud | Из этого руководства вы узнаете, что такое облачные вычисления и как Microsoft Azure может помочь вам перенести и запустить свой бизнес из облака.

Техопедия объясняет экосистему Hadoop

И основной пакет Hadoop, и его аксессуары - это в основном проекты с открытым исходным кодом, лицензированные Apache. Идея экосистемы Hadoop заключается в использовании различных частей базового набора Hadoop, таких как MapReduce, платформа для обработки огромных объемов данных, и распределенная файловая система Hadoop (HDFS), сложная система обработки файлов. Существует также YARN, менеджер ресурсов Hadoop.

В дополнение к этим ключевым элементам Hadoop, Apache также предоставляет другие виды аксессуаров или дополнительных инструментов для разработчиков. К ним относятся Apache Hive, инструмент анализа данных; Apache Spark, общий движок для обработки больших данных; Apache Pig, язык потоков данных; HBase, инструмент базы данных; а также Ambarl, который можно рассматривать как менеджер экосистемы Hadoop, поскольку он помогает совместно управлять использованием этих различных ресурсов Apache. Поскольку Hadoop становится стандартом де-факто для сбора данных и становится повсеместным во многих организациях, менеджеры и лидеры разработки узнают все об экосистеме Hadoop и о том, какие вещи используются в общей настройке Hadoop.