Содержание
- Определение - что означает Apache Pig?
- Введение в Microsoft Azure и Microsoft Cloud | Из этого руководства вы узнаете, что такое облачные вычисления и как Microsoft Azure может помочь вам перенести и запустить свой бизнес из облака.
- Техопедия объясняет Apache Pig
Определение - что означает Apache Pig?
Apache Pig - это платформа, которая используется для анализа больших наборов данных. Он состоит из языка высокого уровня для выражения программ анализа данных, а также инфраструктуры для оценки этих программ. Одной из наиболее важных особенностей Pig является то, что его структура реагирует на значительное распараллеливание.
Pig работает на платформе Hadoop, записывает данные и считывает данные из распределенной файловой системы Hadoop (HDFS) и выполняет обработку с помощью одного или нескольких заданий MapReduce. Apache Pig доступен с открытым исходным кодом.
Apache Pig также известен как язык программирования Pig или Hadoop Pig.
Введение в Microsoft Azure и Microsoft Cloud | Из этого руководства вы узнаете, что такое облачные вычисления и как Microsoft Azure может помочь вам перенести и запустить свой бизнес из облака.
Техопедия объясняет Apache Pig
Apache Pig состоит из двух частей: латинского языка Pig и движка Pig. Латинский язык Pig - это язык сценариев, который позволяет пользователям проиллюстрировать, каким образом поток данных из одного или нескольких входов должен быть прочитан и обработан, а также место, в котором он должен быть сохранен.
Вот некоторые из ключевых свойств Pig Latin:
- Простота программирования: сложные задачи, состоящие из различных взаимосвязанных преобразований данных, четко кодируются как последовательности потоков данных. Это делает их простыми в написании, понимании и поддержании.
- Возможности оптимизации: способ кодирования задач позволяет системе оптимизировать автоматическое выполнение. Это позволяет пользователю обращать внимание на семантику, а не на эффективность.
- Расширяемость: пользователям разрешается создавать свои собственные функции для выполнения специальной обработки. Механизм Pig отвечает за выполнение потока данных, написанных на Pig Latin. Как и стандартная система управления реляционными базами данных (RDBMS), Apache Pig состоит из анализатора, оптимизатора и средства проверки типов, в дополнение к операторам, которые выполняют обработку данных. Свинья не включает транзакции, каталог данных или возможность напрямую обрабатывать хранилище данных или использовать среду исполнения.