Apache Spark

Автор: Eugene Taylor
Дата создания: 8 Август 2021
Дата обновления: 1 Июль 2024
Anonim
Что такое Apache Spark
Видео: Что такое Apache Spark

Содержание

Определение - Что означает Apache Spark?

Apache Spark - это программа с открытым исходным кодом, используемая для анализа данных. Он является частью большого набора инструментов, включая Apache Hadoop и другие ресурсы с открытым исходным кодом для современного аналитического сообщества.


Эксперты описывают это относительно новое программное обеспечение с открытым исходным кодом как инструмент кластерных вычислений для анализа данных. Его можно использовать с распределенной файловой системой Hadoop (HDFS), которая является конкретным компонентом Hadoop, который облегчает сложную обработку файлов.

Некоторые ИТ-специалисты описывают использование Apache Spark в качестве потенциальной замены компонента Apache Hadoop MapReduce. MapReduce также является инструментом кластеризации, который помогает разработчикам обрабатывать большие наборы данных. Те, кто понимает дизайн Apache Spark, отмечают, что в некоторых ситуациях он может быть во много раз быстрее, чем MapReduce.

Введение в Microsoft Azure и Microsoft Cloud | Из этого руководства вы узнаете, что такое облачные вычисления и как Microsoft Azure может помочь вам перенести и запустить свой бизнес из облака.

Техопедия объясняет Apache Spark

Те, кто сообщает о современном использовании Apache Spark, показывают, что компании используют его по-разному. Одно из распространенных применений - агрегирование данных и их структурирование более изощренными способами. Apache Spark также может быть полезен для аналитического машинного обучения или классификации данных.


Как правило, организации сталкиваются с проблемой уточнения данных эффективным и несколько автоматизированным способом, где Apache Spark может использоваться для таких задач. Некоторые также подразумевают, что использование Spark может помочь обеспечить доступ для тех, кто менее осведомлен о программировании и хочет принять участие в обработке аналитики.

Apache Spark включает в себя API для Python и связанных с ним языков программного обеспечения.