В чем разница между большими данными и Hadoop?

Автор: Judy Howell
Дата создания: 5 Июль 2021
Дата обновления: 12 Май 2024
Anonim
Очень кратко про Hadoop и Spark
Видео: Очень кратко про Hadoop и Spark

Содержание

Q:

В чем разница между большими данными и Hadoop?


A:

Разница между большими данными и программой с открытым исходным кодом Hadoop является четкой и фундаментальной. Первый представляет собой актив, часто сложный и неоднозначный, а второй представляет собой программу, которая выполняет ряд целей и задач для работы с этим активом.

Большие данные - это просто большие наборы данных, которые компании и другие стороны объединяют для достижения конкретных целей и операций. Большие данные могут включать в себя много разных видов данных в разных форматах. Например, предприятия могут приложить много усилий для сбора тысяч единиц данных о покупках в валютных форматах, идентификаторах клиентов, таких как имя или номер социального страхования, или информации о продукте в виде номеров моделей, номеров продаж или инвентарных номеров. Все это или любую другую большую массу информации можно назвать большими данными. Как правило, он сырой и несортированный, пока не будет обработан различными инструментами и обработчиками.


Hadoop - это один из инструментов, предназначенных для обработки больших данных. Hadoop и другие программные продукты работают, чтобы интерпретировать или анализировать результаты поиска больших данных через специальные запатентованные алгоритмы и методы. Hadoop - это программа с открытым исходным кодом под лицензией Apache, поддерживаемая глобальным сообществом пользователей. Он включает в себя различные основные компоненты, в том числе набор функций MapReduce и распределенную файловую систему Hadoop (HDFS).

Идея MapReduce заключается в том, что Hadoop может сначала отобразить большой набор данных, а затем выполнить сокращение этого содержимого для получения конкретных результатов. Функция сокращения может рассматриваться как своего рода фильтр для необработанных данных. Затем система HDFS действует для распределения данных по сети или их миграции по мере необходимости.

Администраторы баз данных, разработчики и другие могут использовать различные функции Hadoop для работы с большими данными любым количеством способов. Например, Hadoop можно использовать для реализации таких стратегий данных, как кластеризация и нацеливание с неоднородными данными или данными, которые не вписываются в традиционную таблицу или хорошо отвечают на простые запросы.