10 больших данных делают и не делают

Автор: Eugene Taylor
Дата создания: 13 Август 2021
Дата обновления: 22 Июнь 2024
Anonim
10 вопросов ДАТА-САЙЕНТИСТУ
Видео: 10 вопросов ДАТА-САЙЕНТИСТУ

Содержание



Источник: Rawpixelimages / Dreamstime.com

вынос:

Большие данные - это новая и развивающаяся область для большинства компаний. Чтобы это работало, требуется тщательная настройка и использование лучших практик.

Большие данные несут большие надежды для всех типов отраслей. Если эти большие данные используются эффективно и результативно, они могут оказать существенное влияние на принятие решений и аналитику. Но выгода больших данных может быть достигнута только в том случае, если они управляются структурированным образом. Лучшие практики больших данных постепенно внедряются, но уже есть некоторые четкие плюсы и минусы, когда дело доходит до реализации.

Следующее руководство основано на практическом опыте и знаниях, полученных в реальных проектах. Вот мои главные большие данные о том, что нужно и чего нельзя.

Вовлеките все бизнес-секции в инициативу больших данных

Инициатива в области больших данных не является изолированной и независимой деятельностью, и участие всех бизнес-единиц является необходимостью, чтобы получить реальную ценность и понимание. Большие данные могут помочь организациям использовать большие объемы данных и получить представление о поведении клиентов, событиях, тенденциях, прогнозах и т. Д. Это невозможно с моментальным снимком данных, который захватывает только часть всего объема данных, обрабатываемых в больших данных. В результате компании все больше концентрируются на всех типах данных, поступающих из всех возможных направлений / бизнес-единиц, чтобы понять правильную схему.

Оцените все модели инфраструктуры для реализации больших данных

Объем данных и управление ими являются серьезной проблемой для любой инициативы в области больших данных. Поскольку большие данные имеют дело с петабайтами данных, единственное решение для управления ими - использование центров обработки данных. В то же время, компонент стоимости должен быть рассмотрен до выбора и завершения любого хранилища. Облачные сервисы часто являются лучшим выбором, но сервисы разных облачных сред должны быть оценены для определения подходящего. Поскольку хранилище является одним из наиболее важных компонентов в любой реализации больших данных, этот фактор следует очень тщательно оценивать в любой инициативе в области больших данных. (Получите еще одну перспективу в сегодняшней проблеме больших данных, исходя из разнообразия, а не объема или скорости.)

Учитывайте традиционные источники данных при планировании больших данных

Существуют различные источники больших данных, и число источников также растет день ото дня. Этот огромный объем данных используется в качестве входа для обработки больших данных. В результате некоторые компании считают, что традиционные источники данных бесполезны. Это не так, поскольку эти традиционные данные являются критически важным компонентом успеха любой истории больших данных. Традиционные данные содержат ценную информацию, поэтому их следует использовать вместе с другими источниками больших данных. Реальная ценность больших данных может быть получена только в том случае, если принять во внимание все источники данных (традиционные и нетрадиционные). (Узнайте больше в статье «Прими это, большие данные! Почему маленькие данные могут принести больше удовольствия?»)

Учитывайте согласованный набор данных

В среде больших данных данные поступают из разных источников. Формат, структура и типы данных варьируются от одного источника к другому. Наиболее важной частью является то, что данные не очищаются, когда речь идет о вашей среде больших данных. Поэтому, прежде чем доверять входящим данным, необходимо проверить их согласованность путем повторного наблюдения и анализа. Как только согласованность данных подтверждена, ее можно рассматривать как согласованный набор метаданных. Поиск согласованного набора метаданных путем тщательного наблюдения за шаблоном является важным упражнением при планировании больших данных.

Распространять данные

Объем данных является серьезной проблемой, когда мы рассматриваем среду обработки. Из-за огромного объема данных, с которыми имеют дело большие данные, обработка на одном сервере невозможна. Решением является среда Hadoop, которая представляет собой распределенную вычислительную среду, работающую на обычном оборудовании. Это дает возможность более быстрой обработки на нескольких узлах. (Узнайте больше в 7 фактах о Hadoop.)

Никогда не полагайтесь на единый метод анализа больших данных

На рынке доступны различные технологии для обработки больших данных. Основой всех технологий больших данных являются Apache Hadoop и MapReduce. Поэтому важно оценить правильную технологию для правильной цели. Некоторые из важных аналитических подходов - это прогнозирующая аналитика, предписывающая аналитика, аналитика, потоковая аналитика данных и т. Д. Выбор подходящего метода / подхода важен для достижения желаемой цели. Лучше не полагаться на один подход, но исследовать различные подходы и выбрать идеальное соответствие для вашего решения.

Не начинайте инициативу больших больших данных, пока вы не готовы

Всегда рекомендуется начинать с маленьких шагов для любой большой инициативы данных. Итак, начните с пилотных проектов, чтобы получить опыт, а затем перейдите к фактической реализации. Потенциал больших данных очень впечатляет, но реальная ценность может быть достигнута только тогда, когда мы уменьшим наши ошибки и приобретем больше опыта.

Не используйте данные в изоляции

Большие источники данных разбросаны вокруг нас, и они растут день ото дня. Важно объединить все эти данные для получения правильных результатов аналитики. На рынке доступны различные инструменты для интеграции данных, но их следует правильно оценить перед использованием. Интеграция больших данных - сложная задача, поскольку данные из разных источников имеют разный формат, но очень важно получить хороший результат аналитики.

Не игнорируйте безопасность данных

Безопасность данных является основным фактором при планировании больших данных. Первоначально (до выполнения какой-либо обработки) данные хранятся в петабайтах, поэтому безопасность не строго соблюдается. Но после некоторой обработки вы получите подмножество данных, которые обеспечат некоторое понимание. На этом этапе безопасность данных становится необходимой. Чем больше данных обрабатывается и настраивается, тем более ценными они часто становятся для организации. Эти точно настроенные выходные данные являются интеллектуальной собственностью и должны быть защищены. Безопасность данных должна быть реализована как часть жизненного цикла больших данных.

Не игнорируйте часть производительности аналитики больших данных

Результаты анализа больших данных полезны только тогда, когда они дают хорошую производительность. Большие данные предлагают больше идей, основанных на обработке огромного количества данных с более высокой скоростью. Поэтому важно управлять им эффективно и результативно. Если производительность больших данных не будет тщательно контролироваться, это вызовет проблемы и сделает все усилия бессмысленными.

В нашей дискуссии мы сосредоточились на достоинствах и недостатках инициатив в области больших данных. Большие данные - это новая область, и когда дело доходит до внедрения, многие компании все еще находятся на этапе планирования. Важно понять лучшие практики больших данных, чтобы минимизировать риск и ошибки. Вопросы для обсуждения были извлечены из опыта работы с живыми проектами, поэтому он даст некоторые рекомендации по успешной реализации стратегии больших данных.