Каталоги данных и созревание рынка машинного обучения

Видео: [Коллоквиум]: Методы машинного обучения и большие данные биоинформатики

Содержание

Императив инфономики
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Что каталоги данных могут сделать для бизнеса
Добавление в машинное обучение
Как выбрать

Источник: Nmedia / Dreamstime.com

вынос:

Рынок MLDC растет, и предприятия, стремящиеся эффективно использовать большие данные с машинным обучением, должны быть в курсе главных имен в своей области и их индивидуальных рейтингов.

Это век больших данных. Мы завалены информацией, и предприятиям сложно управлять ею и извлекать из нее выгоду.

Сегодняшний поток больших данных влечет за собой не только объем, разнообразие и скорость, но также и сложность. Как определено SAS в «Истории больших данных» и «Текущие соображения», это фактор потоков «из нескольких источников, который затрудняет связывание, сопоставление, очистку и преобразование данных в разных системах». (Хотите узнать больше о больших данных? Проверьте (Большое) Datas Big Future.)

Поиск ценной информации - это не просто сбор как можно большего количества данных, а поиск правильных данных. Невозможно пройти через все это с помощью ручных процессов. Вот почему все больше и больше предприятий «обращаются к каталогам данных, чтобы демократизировать доступ к данным, дать возможность знаниям племенных данных следить за информацией, применять политики данных и быстро активировать все данные для деловой ценности».

Именно здесь каталоги данных (иногда также называемые информационными каталогами) входят в изображение. Как здесь определено, они дают возможность «пользователям изучать необходимые им источники данных и понимать изученные источники данных, и в то же время помогают организациям получать большую отдачу от своих нынешних инвестиций». Один из способов сделать это - предоставить гораздо больший доступ к данным среди разных типов пользователей, которые могут использовать их или внести в них свой вклад.

Императив инфономики

Отмечая резко возросший спрос на каталоги данных в конце 2017 года, Gartner назвал их «новым черным». Они получили признание как быстрое и экономичное решение «для инвентаризации и классификации организаций, которые все чаще распределяют и дезорганизуют активы данных, и отображают их цепочки поставок информации». Необходимость в этом возникла из-за роста «инфономики», которая требует применения той же тщательности к отслеживанию информации, что и к управлению другими бизнес-активами. (Подробнее о цепочках поставок см., Как машинное обучение может повысить эффективность цепочки поставок.)

Gartners согласны с «Forrester Wave ™: каталоги данных по машинному обучению», второй квартал 2018. Более половины участников опроса в этом отчете заявили, что планируют создать реализацию своего каталога данных. Вероятно, они были в значительной степени мотивированы тем фактом, что в каждой организации было по меньшей мере семь озер данных. Как объясняет Gartner в каталогах данных, каталоги данных особенно полезны для извлечения «смысла, значения и ценности данных», которые обычно оставляются в несекретной форме в озере данных.

Forrester сообщает, что более трети лиц, принимающих решения в области данных и аналитики, имели дело с 1000 ТБ или более данными в 2017 году, что на 10-14% больше, чем годом ранее. Управление данными в таком масштабе является растущей проблемой, или, в частности, двумя проблемами:

«1) объединение существующих бизнес-процессов с исходными данными для их анализа и реализации идей и 2) поиск, сбор, управление и управление данными по мере их роста».

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Что каталоги данных могут сделать для бизнеса

Gartner определяет конкретные способы, с помощью которых каталоги данных могут улучшить поток информации и производительность организации:

Сбор и передача обновленной информационной инвентаризации активов, доступной для организации.
Создание общего глоссария деловых терминов, который определяет семантическую интерпретацию и значение данных организации, тем самым обеспечивая средства для посредничества и устранения несоответствий в определении.
Создание динамичной и гибкой среды совместной работы, позволяющей коллегам из бизнеса и ИТ комментировать, документировать и обмениваться данными.
Обеспечение прозрачности использования данных с помощью анализа происхождения и воздействия.
Мониторинг, аудит и отслеживание данных в поддержку процессов управления информацией.
Сбор метаданных для улучшения внутреннего анализа использования и повторного использования данных, оптимизации запросов и сертификации данных.
Осмысление информации в рамках ее бизнес-использования путем сбора, передачи и анализа того, какие данные существуют, откуда они поступают, в чем они используются, зачем они нужны, как они передаются между процессами и системами, кто за это отвечает, что это значит и какое значение это имеет.

В отчете Gartner говорится, что правильная идентификация данных и их доступность для ключевых сотрудников организации важны не только для того, чтобы найти способ «монетизировать активы данных для достижения результатов цифрового бизнеса», но и для соответствия нормативным требованиям, независимо от того, являются ли они отраслевыми. конкретный, как Закон о мобильности и подотчетности медицинского страхования (HIPAA), или более общий характер, такой как Общее положение о защите данных (GDPR).

Добавление в машинное обучение

Но ничто не обходится без его недостатков. Для каталогов данных проблема заключалась в медленном и утомительном процессе, связанном с ручным созданием их со всеми метаданными, которые необходимо ввести в действие. Это где компонент машинного обучения входит.

Каталоги данных, которые оценил Forrester, называются MLDC, потому что они используют возможности машинного обучения, одного из компонентов ИИ. Как объясняется в блоге Podium Data, это позволяет «создать постоянное хранилище метаданных, а затем применить ML / AI для выявления и раскрытия потенциально полезной информации о базовых активах данных».

Как выбрать

Чтобы помочь организациям оценить, какой бизнес следует выбрать, Forrester применил 29 баллов к лучшим 12 MLDC. Он определил лидеров на этом рынке как: IBM, Relito, Unifi Software, Alation и Collibra. Сильные исполнители обнаружили Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics и Cloudera. Hortonworks стоит особняком в звании «соперник».

Однако не следует идти в одиночку по общему рейтингу. В отчете раскрываются сильные и слабые стороны каждого из них. Соответственно, если конкретная функция, такая как исследования и разработки, имеет первостепенное значение для организации, она может рассматривать Hortonworks как равную IBM и Colilbra для этого аспекта, потому что эти три имеют высший балл из пяти за это качество, которое было на два балла лучше, чем Alation и Coloudera, и на четыре балла лучше, чем Cambridge Semantics.

Соответственно, в отчете Forrester те, кто использует его отчет, рекомендуют не предполагать, что компания с самым высоким рейтингом является лучшим выбором для всех. Они должны обратить пристальное внимание на разбивку оценки, чтобы найти то, что соответствует их конкретным требованиям.