Куду: изменится игра в экосистеме Hadoop?

Видео: Демо занятие курса «Экосистема Hadoop, Spark, Hive»

Содержание

Что такое куду?
Что такое текущий статус Кудус?
Как Kudu может дополнить HDFS / HBase?
Особенности платформы Kudu
Как Kudu может изменить экосистему Hadoop?
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Заключение

Источник: Агсандрю / Dreamstime.com

вынос:

Kudu - это проект с открытым исходным кодом, который помогает более эффективно управлять хранилищем.

Kudu - это новый проект с открытым исходным кодом, который предоставляет обновляемое хранилище. Это дополнение к HDFS / HBase, которое обеспечивает последовательное и доступное только для чтения хранилище. Kudu больше подходит для быстрой аналитики быстрых данных, что в настоящее время является требованием бизнеса. Таким образом, Kudu - это не просто еще один экосистемный проект Hadoop, а скорее потенциал для изменения рынка. (Подробнее о Hadoop см. В 10 самых важных терминах Hadoop, которые вы должны знать и понимать.)

Что такое куду?

Kudu - это особая система хранения, которая хранит структурированные данные в виде таблиц. Каждая таблица имеет номера столбцов, которые предварительно определены. Каждый из них имеет первичный ключ, который на самом деле представляет собой группу из одного или нескольких столбцов этой таблицы. Этот первичный ключ предназначен для добавления ограничения и защиты столбцов, а также для работы в качестве индекса, что позволяет легко обновлять и удалять. Эти таблицы представляют собой серию подмножеств данных, называемых планшетами.

Что такое текущий статус Кудус?

Куду действительно хорошо развит и уже обладает множеством функций. Однако, это все еще нуждается в некоторой полировке, которая может быть сделана легче, если пользователи предложат и внесут некоторые изменения.

Kudu является полностью открытым исходным кодом и имеет лицензию Apache Software License 2.0. Он также предназначен для передачи в Apache, чтобы его можно было разработать как проект Apache Incubator. Это позволит его развитию развиваться еще быстрее и еще больше увеличить аудиторию. Через определенное время развитие Куду будет сделано публично и прозрачно. Многие компании, такие как AtScale, Xiaomi, Intel и Splice Machine, объединились, чтобы внести свой вклад в развитие Kudu. Куду также имеет большое сообщество, где большое количество зрителей уже предоставляют свои предложения и вклады. Таким образом, именно люди движут вперед в развитии Куду.

Как Kudu может дополнить HDFS / HBase?

Куду не предназначен для замены HDFS / HBase. Он на самом деле предназначен для поддержки HBase и HFDS и работает вместе с ними, чтобы расширить их возможности. Это связано с тем, что HBase и HDFS по-прежнему имеют множество функций, которые делают их более мощными, чем Kudu, на некоторых машинах. В целом такие машины получат больше преимуществ от этих систем.

Особенности платформы Kudu

Основные особенности фреймворка Kudu:

Чрезвычайно быстрое сканирование столбцов таблицы. Для лучших форматов данных, таких как Parquet и ORCFile, требуются лучшие процедуры сканирования, которые идеально подходят для Kudu. Такие форматы нуждаются в быстром сканировании, которое может происходить только при правильном кодировании столбчатых данных.
Надежность работы - платформа Kudu повышает общую надежность Hadoop, закрывая многие лазейки и пробелы, присутствующие в Hadoop.
Простая интеграция с Hadoop - Kudu может быть легко интегрирован с Hadoop и его различными компонентами для большей эффективности.
Полностью с открытым исходным кодом - Kudu - это система с открытым исходным кодом с лицензией Apache 2.0. Он имеет большое сообщество разработчиков из разных компаний и профессий, которые регулярно обновляют его и предоставляют предложения для изменений.

Как Kudu может изменить экосистему Hadoop?

Куду был построен, чтобы вписаться в экосистему Hadoop и расширить его возможности. Он также может интегрироваться с некоторыми из ключевых компонентов Hadoop, такими как MapReduce, HBase и HDFS. Задания MapReduce могут предоставлять данные или получать данные из таблиц Куду. Эти функции можно использовать и в Spark. Специальный слой делает некоторые компоненты Spark, такие как Spark SQL и DataFrame, доступными для Kudu. Хотя Kudu не был настолько развит, чтобы заменить эти функции, предполагается, что через несколько лет он будет достаточно развит для этого. До тех пор интеграция между Hadoop и Kudu действительно очень полезна и может заполнить основные пробелы в экосистеме Hadoop. (Чтобы узнать больше о Apache Spark, см. Как Apache Spark помогает быстрой разработке приложений.)

Куду можно реализовать в самых разных местах. Некоторые примеры таких мест приведены ниже:

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Потоковая передача данных в режиме, близком к реальному времени - В тех местах, где необходимо получать входные данные как можно скорее, Kudu может сделать замечательную работу. Примером такого места являются предприятия, где большие объемы динамических данных поступают из разных источников, и их необходимо быстро предоставлять в режиме реального времени.
Приложения временных рядов с различными схемами доступа - Kudu идеально подходит для приложений на основе временных рядов, поскольку проще настраивать таблицы и сканировать их, используя его. Пример такого использования - в универмагах, где старые данные должны быть быстро найдены и обработаны, чтобы предсказать будущую популярность продуктов.
Устаревшие системы. Многие компании, которые получают данные из различных источников и хранят их на разных рабочих станциях, будут чувствовать себя как дома с Kudu. Kudu чрезвычайно быстр и может эффективно интегрироваться с Impala для обработки данных на всех машинах.
Прогнозирующее моделирование. Ученые, которые хотят иметь хорошую платформу для моделирования, могут использовать Kudu. Куду может учиться на любом наборе данных. Ученый может запустить и повторно запустить модель несколько раз, чтобы увидеть, что происходит.

Заключение

Несмотря на то, что Kudu все еще находится в стадии разработки, он обладает достаточным потенциалом, чтобы стать хорошим дополнением для стандартных компонентов Hadoop, таких как HDFS и HBase. У этого достаточно потенциала, чтобы полностью изменить экосистему Hadoop, заполнив все пробелы, а также добавив некоторые дополнительные функции. Он также очень быстрый и мощный и может помочь в быстром анализе и хранении больших таблиц данных. Однако для более эффективного использования еще предстоит проделать определенную работу.