Операционный Hadoop в архитектуре данных следующего поколения

Автор: Roger Morrison
Дата создания: 20 Сентябрь 2021
Дата обновления: 1 Июль 2024
Anonim
BIG DATA - архитектор матрицы
Видео: BIG DATA - архитектор матрицы

Содержание



Источник: Romeo1232 / Dreamstime.com

вынос:

Hadoop станет ключевым игроком в архитектуре данных следующего поколения благодаря своей способности обрабатывать огромные объемы данных.

Утилита Hadoop начинает выходить за рамки обработки больших объемов данных и аналитики, поскольку отрасль требует от нее большего. Hadoop постоянно удовлетворяет разнообразные требования, связанные с архитектурой корпоративных данных, сохраняя при этом свои сильные стороны. Список того, что Hadoop может делать и делает в настоящее время, довольно длинный. Теперь Hadoop может обрабатывать огромные объемы транзакционных рабочих нагрузок, что ранее предполагалось для традиционных технологий. В будущем у Hadoop много возможностей. Например, транзакционные системы, основанные на SQL, могут использовать движок Hadoop SQL, и Hadoop также добавит множество возможностей СУБД. Можно сказать, что Hadoop становится гибридом возможностей обработки и анализа данных с возможностями архитектуры предприятия.


Что такое архитектура данных следующего поколения?

Проще говоря, архитектура данных следующего поколения является развитой формой архитектуры данных. Все, включая модели данных, политики данных, правила и стандарты, которые определяют, как данные собираются, хранятся, упорядочиваются, анализируются или обрабатываются, интегрируются, используются и распределяются, развивались в архитектуре данных следующего поколения.

Основное различие между более ранней архитектурой данных и архитектурой данных следующего поколения заключается в ее способности собирать, хранить и обрабатывать огромные объемы данных, также известные как большие данные, в режиме реального времени. Архитектура выполняет все эти сложные задачи без ущерба для стандартов конфиденциальности, безопасности и управления данными.

Архитектура данных следующего поколения сталкивается со многими проблемами. Нелегко управлять объемом, скоростью и разнообразием больших данных. Добавьте к этому требования оптимизации рабочей нагрузки системы, повышения производительности, скорости и точности, а также снижения затрат. Излишне говорить, что предшествующая архитектура данных не должна была справляться с такими требованиями.


Итак, ИТ-директора и информационные архитекторы хотят найти решение, которое поможет им достичь своих целей. В этом контексте в течение некоторого времени обсуждается операционный Hadoop. В следующих разделах будет обсуждаться, как оперативный Hadoop может решать проблемы.

Ожидания от Hadoop в Con архитектуры следующего поколения

Компании находятся под растущим давлением, чтобы обеспечить лучшие результаты, и последствия сводятся к ожиданиям, возложенным на технологии. Таким образом, Hadoop больше не должен обрабатывать данные. ИТ-директора и технические директора хотят большего от Hadoop. Ниже приведен список ожиданий от Hadoop. Фактически, Hadoop уже оправдал некоторые из этих ожиданий.

Ожидается, что Hadoop будет работать с транзакционными системами, основанными на SQL и имеющими возможности создания, чтения, обновления и удаления. Системы транзакций будут использовать механизм SQL. Системы также будут полностью соответствовать требованиям интерфейса POSIX и обрабатывать большие объемы транзакций.

Ожидается, что Hadoop будет поддерживать такие функции, как резервное копирование, отказоустойчивость, восстановление и аварийное восстановление. Чтобы Hadoop превратился в систему с возможностями СУБД, он должен быть совместим с существующими инструментами ИТ.

Hadoop уже работает над тем, чтобы оправдать ожидания, о чем свидетельствуют некоторые события. Hadoop может предоставлять анализ в реальном времени и быстрые ответы на основе поддержки управления ресурсами, предоставляемой YARN. YARN - это крупномасштабная и распределенная операционная система для приложений с большими данными, а также менеджер ресурсов. Известно, что другие разработки, такие как Apache Storm, распределенные архитектуры в памяти, такие как Apache Spark, Apache Hive, Drill и MapR-FS (высокопроизводительная замена HDFS), работают для того, чтобы предлагать различные полные возможности базы данных, такие как резервное копирование, аварийное восстановление, отказоустойчивость и т. д. (Подробнее о YARN см. в разделе Каковы преимущества платформы Hadoop 2.0 (YARN)?)

Какие ценности Hadoop может добавить в архитектуру данных следующего поколения?

Значения, которые Hadoop может добавить к архитектуре данных следующего поколения, можно рассматривать с двух точек зрения: во-первых, соответствует ли он ожиданиям, описанным выше, и во-вторых, делает ли он что-то дополнительное. Ниже приведены основные значения, которые может принести операционный Hadoop.

Теперь Hadoop может обеспечить большую масштабируемость и управляемость данных на своей платформе через HDFS. И операционная система данных была включена через приложения Yadn от Hadoop. Эта стратегия представляет собой сдвиг в архитектуре данных на фундаментальном уровне. Теперь Hadoop может хранить различные типы данных, такие как базы данных, ориентированные на транзакции, графические базы данных и базы данных документов, и к этим данным можно обращаться через приложения YARN. Нет необходимости дублировать или перемещать данные в другие места.

Улучшенная производительность как корпоративная архитектура данных

Operational Hadoop становится основной системой архитектуры данных предприятия. По мере того как Hadoop будет больше ориентироваться в архитектуре корпоративных данных, хранилища данных будут устранены, так как устранены границы между ними. Там будет быстрое улучшение почти во всех аспектах. Улучшения будут иметь место в виде более эффективных форматов файлов, лучшей производительности движка SQL, улучшенных файловых систем и надежности, которые будут отвечать потребностям корпоративных приложений.

Разница между Hadoop и другими технологиями

В прошлом основным отличием технологий Hadoop от корпоративных данных были большие возможности обработки, составления отчетов и аналитики в Hadoop. Теперь, когда операционная система Hadoop становится все более и более важной частью архитектуры корпоративных данных, разница между объектами становится все более размытой. Таким образом, операционная система Hadoop становится превосходной альтернативой существующей архитектуре корпоративных данных.

Заключение

Учитывая ожидания и прогресс, Hadoop будет в центре внимания отрасли в течение достаточно долгого времени. Но имеет смысл не слишком фокусироваться на Hadoop и просто игнорировать другие технологии. Это потому, что другие технологии будут прогрессировать по тем же параметрам и могут даже обогнать Hadoop. Никогда не хорошо иметь монополию на рынке. Хорошо, что создатели других технологий, отличных от Hadoop, могут быть заинтересованы в создании более качественных продуктов и даже плагинов, которые помогают Hadoop повысить производительность.