Apache Nutch

Автор: Eugene Taylor
Дата создания: 8 Август 2021
Дата обновления: 20 Июнь 2024
Anonim
Apache Nutch 2.0 Tutorial (with Elasticsearch)
Видео: Apache Nutch 2.0 Tutorial (with Elasticsearch)

Содержание

Определение - что означает Apache Nutch?

Apache Nutch - это программный продукт для веб-поиска, который можно использовать для сбора данных из Интернета. Он используется в сочетании с другими инструментами Apache, такими как Hadoop, для анализа данных.


Введение в Microsoft Azure и Microsoft Cloud | Из этого руководства вы узнаете, что такое облачные вычисления и как Microsoft Azure может помочь вам перенести и запустить свой бизнес из облака.

Техопедия объясняет Apache Nutch

Apache Nutch - это продукт с открытым исходным кодом, лицензированный Apache Software Foundation. Это сообщество разработчиков имеет лицензии на ряд программных инструментов Apache, которые могут сортировать и анализировать данные. Одна из центральных технологий - Apache Hadoop, инструмент для анализа больших данных, который очень популярен в бизнес-сообществе.

Наряду с такими инструментами, как Apache Hadoop и функциями для хранения, анализа и т. Д., Роль Nutch заключается в сборе и хранении данных из Интернета с помощью алгоритмов сканирования в Интернете.

Пользователи могут использовать простые команды в Apache Nutch для сбора информации по URL-адресам. Пользователи обычно используют Apache Nutch вместе с другим инструментом с открытым исходным кодом, фреймворком под названием Apache Solr, который может выступать в качестве хранилища данных, собираемых с помощью Apache Nutch.