Сегодняшняя проблема больших данных связана с разнообразием, а не с объемом или скоростью

Автор: Judy Howell
Дата создания: 28 Июль 2021
Дата обновления: 1 Июль 2024
Anonim
Большие данные от Яндекс
Видео: Большие данные от Яндекс

Содержание


вынос:

Слишком многие ИТ-отделы бросают все, что у них есть, на проблемы объема и скорости передачи данных, забывая решать фундаментальную проблему разнообразия данных.

По словам вице-президента Gartner по исследованиям Дуга Лейни, задача управления большими данными и их использования состоит из трех элементов. Лейни впервые отметил более десяти лет назад, что большие данные создают такую ​​проблему для предприятия, потому что они представляют собой трудно управляемый объем, скорость и разнообразие. Проблема заключается в том, что слишком многие ИТ-отделы бросают все, что у них есть, на проблемы объема и скорости передачи данных, забывая решать фундаментальную проблему разнообразия данных.

Еще в 2001 году Лейни писал, что «ведущие предприятия будут все чаще использовать централизованное хранилище данных для определения общего делового словаря, который улучшает внутреннее и внешнее сотрудничество». Проблема этого словаря - и изменчивость, которая мешает компаниям создавать его - остается наименее затронутым аспектом головоломки больших данных сегодня. (Посмотрите, что говорят другие эксперты. Посмотрите на экспертов по большим данным, чтобы следовать.)


Три против больших данных

Многочисленные компании нашли способы использовать увеличенный объем данных и скорость. Например, можно анализировать огромные объемы данных. Конечно, эти данные часто представляются снова и снова в рамках одних и тех же параметров. Это привело к технологическим инновациям, таким как базы данных столбцов, которые в настоящее время широко используются другими компаниями, которые сталкиваются с одинаково значительными хранилищами аналогичных элементов данных.

С точки зрения скорости приручения, такие поставщики, как Splunk, помогают предприятиям быстро анализировать созданные данные с помощью файлов журналов, которые регистрируют несколько тысяч событий в секунду. Этот анализ событий большого объема нацелен на случаи использования мониторинга безопасности и производительности. Как и в случае с объемом данных, проблема скорости была в основном решена с помощью сложных методов индексации и распределенной аналитики данных, которые позволяют масштабировать вычислительную мощность с повышенной скоростью передачи данных.


Однако, когда дело доходит до разнообразия, слишком многие предприятия все еще сталкиваются с большой проблемой в своем подходе к анализу больших данных. Эта проблема обусловлена ​​тремя факторами: во-первых, из-за роста, приобретений и технологических инноваций, которые добавляют новые системы в среду, предприятия оказываются в крайне неоднородной среде, и эта неоднородность только увеличивается со временем. Предприятиям необходимо отслеживать множество типов систем и управлять десятками тысяч типов данных, а также представлять одни и те же данные с использованием разных номенклатур и форматов.

Во-вторых, эти системы и типы данных во многих случаях сообщают как релевантную информацию, так и информацию, которую можно безопасно отфильтровать как несущественную для решаемой проблемы. Необходимо надежно идентифицировать эффективную информацию.

Третьим аспектом проблемы сорта является постоянная изменчивость или изменение окружающей среды. Системы модернизируются, вводятся новые системы, добавляются новые типы данных и вводится новая номенклатура. Это еще больше напрягает нашу способность укротить проблему разнообразия данных. Это добавляет дополнительный слой к проблеме разнообразия. (Для получения более подробной информации, ознакомьтесь с Большими данными: как их собирают, используют и используют для принятия бизнес-решений.)

Решение проблемы разнообразия данных

Чтобы решить проблему разнообразия данных, предприятия должны начать с области ИТ, так как она часто представляет как худших, так и худших жертв проблемы разнообразия. Первый шаг - начать с исчерпывающего определения или таксономии всех элементов или активов ИТ. Это обеспечивает основу или основу для ссылок на что-либо в ИТ-сфере или на ее основе и позволяет предприятиям управлять растущей неоднородностью по отношению к известной таксономии или терминологии.

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Следующим шагом является выявление многочисленных способов представления одного и того же объекта в разных системах записи. Это позволяет ИТ-специалистам просматривать свою гетерогенную среду, высоко фильтровать и сжимать данные в соответствующие и управляемые фрагменты.

Наконец, ИТ-менеджеры должны принять процесс постоянного изучения среды на предмет изменений, таких как вводимые новые типы элементов или новая номенклатура для ссылки на тот же элемент.

Этими шагами ИТ-организации могут управлять проблемой разнообразия и получать глубокое понимание, которое исторически ускользало от ИТ-команд. Более того, решение проблемы разнообразия значительно повышает их рентабельность инвестиций в инструменты и методы, которые решают более традиционные проблемы больших объемов данных с объемом и скоростью.