Apache Pig

Автор: Robert Simon
Дата создания: 16 Июнь 2021
Дата обновления: 13 Май 2024
Anonim
Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn
Видео: Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn

Содержание

Определение - что означает Apache Pig?

Apache Pig - это платформа, которая используется для анализа больших наборов данных. Он состоит из языка высокого уровня для выражения программ анализа данных, а также инфраструктуры для оценки этих программ. Одной из наиболее важных особенностей Pig является то, что его структура реагирует на значительное распараллеливание.


Pig работает на платформе Hadoop, записывает данные и считывает данные из распределенной файловой системы Hadoop (HDFS) и выполняет обработку с помощью одного или нескольких заданий MapReduce. Apache Pig доступен с открытым исходным кодом.

Apache Pig также известен как язык программирования Pig или Hadoop Pig.

Введение в Microsoft Azure и Microsoft Cloud | Из этого руководства вы узнаете, что такое облачные вычисления и как Microsoft Azure может помочь вам перенести и запустить свой бизнес из облака.

Техопедия объясняет Apache Pig

Apache Pig состоит из двух частей: латинского языка Pig и движка Pig. Латинский язык Pig - это язык сценариев, который позволяет пользователям проиллюстрировать, каким образом поток данных из одного или нескольких входов должен быть прочитан и обработан, а также место, в котором он должен быть сохранен.

Вот некоторые из ключевых свойств Pig Latin:

  • Простота программирования: сложные задачи, состоящие из различных взаимосвязанных преобразований данных, четко кодируются как последовательности потоков данных. Это делает их простыми в написании, понимании и поддержании.
  • Возможности оптимизации: способ кодирования задач позволяет системе оптимизировать автоматическое выполнение. Это позволяет пользователю обращать внимание на семантику, а не на эффективность.
  • Расширяемость: пользователям разрешается создавать свои собственные функции для выполнения специальной обработки. Механизм Pig отвечает за выполнение потока данных, написанных на Pig Latin. Как и стандартная система управления реляционными базами данных (RDBMS), Apache Pig состоит из анализатора, оптимизатора и средства проверки типов, в дополнение к операторам, которые выполняют обработку данных. Свинья не включает транзакции, каталог данных или возможность напрямую обрабатывать хранилище данных или использовать среду исполнения.