Hadoop Analytics: объединение данных требует подхода, основанного на источниках

Видео: Большие возможности Больших данных: STATISTICA Big Data Analytics

Источник: Агсандрю / Dreamstime.com

вынос:

Независимые от источника методы идеально подходят для обработки данных для аналитики Hadoop.

Объединение источников данных в Hadoop - сложное дело. Некоторые из причин этого включают в себя:

Пользовательские, специфичные для источника сценарии, которые объединяют источники данных, являются проблематичными.
Использование инструментов интеграции данных или данных науки вводит слишком много неопределенности.
Добавление данных из внешних источников практически невозможно.

Сегодня я собираюсь обсудить, как аналитика Hadoop расширяется за счет технологий, не зависящих от источника, которые позволяют легко комбинировать внутренние и внешние источники данных. В дополнение к описанию того, как работают независимые от источника методы, я также расскажу, почему аналитике Hadoop требуются встроенные интеллектуальные возможности и возможности передачи знаний, понимание взаимосвязей и характеристик данных, а также масштабируемая и высокопроизводительная архитектура.

Исходно-независимые методы включает гибкую модель разрешения сущностей, которая позволяет добавлять новые источники данных с использованием статистически обоснованных, воспроизводимых процессов обработки данных. Эти процессы используют алгоритмы для сбора знаний из данных, а также оценки, анализа их для определения наилучшего интеграционного подхода.
Независимо от того, насколько фрагментированы или неполны исходные записи источников, аналитические технологии Hadoop должны быть независимыми от источников и иметь возможность унифицировать данные без изменения или манипулирования исходными данными. Эти технологии должны также создавать индексы сущностей, основанные на содержании данных, а также характеристиках отдельных людей и их существовании в мире. Для этого они должны понимать содержание данных, структуру, структуру и то, как компоненты связаны друг с другом.
Встроенная наука о данных и опыт интеграции данных позволяет очищать, стандартизировать и сопоставлять данные с высокой степенью точности. Инструменты визуализации и отчеты помогают аналитикам оценивать данные и учиться на них, а также выполнять настройку системы на основе знаний, полученных в ходе различных этапов процесса.
Понимание отношений между объектами приводит к более точным процессам разрешения объектов. Поскольку сущности реального мира представляют собой не только сумму их атрибутов, но и их связи, знание взаимосвязей следует использовать для обнаружения совпадения записей. Это особенно важно для обработки угловых случаев и больших данных.
Характеристика данных улучшает анализ, разрешение и связывание данных, выявляя и предоставляя информацию для источников данных. Это может помочь в проверке содержания, плотности и распределения данных в столбцах структурированной информации. Характеристика данных может также использоваться для идентификации и извлечения важных данных, связанных с сущностью (имя, адрес, дата рождения и т. Д.), Из неструктурированных и полуструктурированных источников для корреляции со структурированными источниками.
Масштабируемая параллельная архитектура выполняет аналитику быстро даже при поддержке сотен структурированных, полуструктурированных и неструктурированных источников данных и десятков миллиардов записей.

Hadoop меняет то, как мир выполняет аналитику. Когда в экосистемы Hadoop добавляется новая независимая от источника аналитика, организации могут соединять точки между многими внутренними и внешними источниками данных и получать идеи, которые раньше были невозможны.

Эта статья была первоначально размещена на Novetta.com. Это было здесь с разрешения. Novetta сохраняет все авторские права.