![[Коллоквиум]: Методы машинного обучения и большие данные биоинформатики](https://i.ytimg.com/vi/x3s5wdwt7Pw/hqdefault.jpg)
Содержание
- Императив инфономики
- Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
- Что каталоги данных могут сделать для бизнеса
- Добавление в машинное обучение
- Как выбрать
Источник: Nmedia / Dreamstime.com
вынос:
Рынок MLDC растет, и предприятия, стремящиеся эффективно использовать большие данные с машинным обучением, должны быть в курсе главных имен в своей области и их индивидуальных рейтингов.
Это век больших данных. Мы завалены информацией, и предприятиям сложно управлять ею и извлекать из нее выгоду.
Сегодняшний поток больших данных влечет за собой не только объем, разнообразие и скорость, но также и сложность. Как определено SAS в «Истории больших данных» и «Текущие соображения», это фактор потоков «из нескольких источников, который затрудняет связывание, сопоставление, очистку и преобразование данных в разных системах». (Хотите узнать больше о больших данных? Проверьте (Большое) Datas Big Future.)
Поиск ценной информации - это не просто сбор как можно большего количества данных, а поиск правильных данных. Невозможно пройти через все это с помощью ручных процессов. Вот почему все больше и больше предприятий «обращаются к каталогам данных, чтобы демократизировать доступ к данным, дать возможность знаниям племенных данных следить за информацией, применять политики данных и быстро активировать все данные для деловой ценности».
Именно здесь каталоги данных (иногда также называемые информационными каталогами) входят в изображение. Как здесь определено, они дают возможность «пользователям изучать необходимые им источники данных и понимать изученные источники данных, и в то же время помогают организациям получать большую отдачу от своих нынешних инвестиций». Один из способов сделать это - предоставить гораздо больший доступ к данным среди разных типов пользователей, которые могут использовать их или внести в них свой вклад.
Императив инфономики
Отмечая резко возросший спрос на каталоги данных в конце 2017 года, Gartner назвал их «новым черным». Они получили признание как быстрое и экономичное решение «для инвентаризации и классификации организаций, которые все чаще распределяют и дезорганизуют активы данных, и отображают их цепочки поставок информации». Необходимость в этом возникла из-за роста «инфономики», которая требует применения той же тщательности к отслеживанию информации, что и к управлению другими бизнес-активами. (Подробнее о цепочках поставок см., Как машинное обучение может повысить эффективность цепочки поставок.)
Gartners согласны с «Forrester Wave ™: каталоги данных по машинному обучению», второй квартал 2018. Более половины участников опроса в этом отчете заявили, что планируют создать реализацию своего каталога данных. Вероятно, они были в значительной степени мотивированы тем фактом, что в каждой организации было по меньшей мере семь озер данных. Как объясняет Gartner в каталогах данных, каталоги данных особенно полезны для извлечения «смысла, значения и ценности данных», которые обычно оставляются в несекретной форме в озере данных.
Forrester сообщает, что более трети лиц, принимающих решения в области данных и аналитики, имели дело с 1000 ТБ или более данными в 2017 году, что на 10-14% больше, чем годом ранее. Управление данными в таком масштабе является растущей проблемой, или, в частности, двумя проблемами:
«1) объединение существующих бизнес-процессов с исходными данными для их анализа и реализации идей и 2) поиск, сбор, управление и управление данными по мере их роста».
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.
Что каталоги данных могут сделать для бизнеса
Gartner определяет конкретные способы, с помощью которых каталоги данных могут улучшить поток информации и производительность организации:
Сбор и передача обновленной информационной инвентаризации активов, доступной для организации.
Создание общего глоссария деловых терминов, который определяет семантическую интерпретацию и значение данных организации, тем самым обеспечивая средства для посредничества и устранения несоответствий в определении.
Создание динамичной и гибкой среды совместной работы, позволяющей коллегам из бизнеса и ИТ комментировать, документировать и обмениваться данными.
Обеспечение прозрачности использования данных с помощью анализа происхождения и воздействия.
Мониторинг, аудит и отслеживание данных в поддержку процессов управления информацией.
Сбор метаданных для улучшения внутреннего анализа использования и повторного использования данных, оптимизации запросов и сертификации данных.
Осмысление информации в рамках ее бизнес-использования путем сбора, передачи и анализа того, какие данные существуют, откуда они поступают, в чем они используются, зачем они нужны, как они передаются между процессами и системами, кто за это отвечает, что это значит и какое значение это имеет.
В отчете Gartner говорится, что правильная идентификация данных и их доступность для ключевых сотрудников организации важны не только для того, чтобы найти способ «монетизировать активы данных для достижения результатов цифрового бизнеса», но и для соответствия нормативным требованиям, независимо от того, являются ли они отраслевыми. конкретный, как Закон о мобильности и подотчетности медицинского страхования (HIPAA), или более общий характер, такой как Общее положение о защите данных (GDPR).
Добавление в машинное обучение
Но ничто не обходится без его недостатков. Для каталогов данных проблема заключалась в медленном и утомительном процессе, связанном с ручным созданием их со всеми метаданными, которые необходимо ввести в действие. Это где компонент машинного обучения входит.
Каталоги данных, которые оценил Forrester, называются MLDC, потому что они используют возможности машинного обучения, одного из компонентов ИИ. Как объясняется в блоге Podium Data, это позволяет «создать постоянное хранилище метаданных, а затем применить ML / AI для выявления и раскрытия потенциально полезной информации о базовых активах данных».
Как выбрать
Чтобы помочь организациям оценить, какой бизнес следует выбрать, Forrester применил 29 баллов к лучшим 12 MLDC. Он определил лидеров на этом рынке как: IBM, Relito, Unifi Software, Alation и Collibra. Сильные исполнители обнаружили Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics и Cloudera. Hortonworks стоит особняком в звании «соперник».
Однако не следует идти в одиночку по общему рейтингу. В отчете раскрываются сильные и слабые стороны каждого из них. Соответственно, если конкретная функция, такая как исследования и разработки, имеет первостепенное значение для организации, она может рассматривать Hortonworks как равную IBM и Colilbra для этого аспекта, потому что эти три имеют высший балл из пяти за это качество, которое было на два балла лучше, чем Alation и Coloudera, и на четыре балла лучше, чем Cambridge Semantics.
Соответственно, в отчете Forrester те, кто использует его отчет, рекомендуют не предполагать, что компания с самым высоким рейтингом является лучшим выбором для всех. Они должны обратить пристальное внимание на разбивку оценки, чтобы найти то, что соответствует их конкретным требованиям.