Как очистка данных для машинного обучения стала самым трудоемким узким местом с момента ручного ввода данных в устаревшей миграции?

Видео: ИТИС-2020. День 3. Машинное обучение и распознавание паттернов

Содержание

Q:

A:

Одной из практических проблем, с которыми компании могут столкнуться при попытке начать проект машинного обучения (ML), является проблема получения наборов исходных данных обучения. Это может включать трудоемкие процессы, такие как очистка веб-страниц или другие операции очистки данных.

Термины «очистка веб-страниц» и «очистка данных» в основном относятся к автоматизированной деятельности с помощью компьютерного программного обеспечения, но для многих проектов ОД будут иметь место случаи, когда у компьютеров нет сложности для сбора правильных целевых данных, поэтому это должно быть сделано » рука." Это вы могли бы назвать "человеческая сеть / очистка данных", и это неблагодарная работа. Обычно это включает в себя выход и поиск данных или изображений, чтобы «накормить» программу ML через обучающие наборы. Это часто довольно итеративно, что делает его утомительной, вялой, требовательной работой.

Очистка данных для учебных наборов ML представляет собой исключительно проблемное узкое место в машинном обучении, отчасти потому, что большая часть другой работы носит концептуальный характер и не повторяется. Многие люди могут придумать отличную идею для нового приложения, которое выполняет задачи машинного обучения, но основные моменты и практическая работа могут быть намного сложнее. В частности, делегирование работы по сборке учебных наборов может быть одной из самых сложных частей проекта ML, как это было подробно показано в телешоу Майка Джаджа «Силиконовая долина». В четвертом сезоне начинающий предприниматель сначала заставляет партнера выполнять трудоемкую работу, а затем пытается выдать его студентам, маскируя его под домашнее задание.

Этот пример поучителен, потому что он показывает, насколько неприязненным и, казалось бы, неважным является ручное извлечение данных. Однако это также показывает, что этот процесс необходим для широкого спектра продуктов машинного обучения. Хотя большинство людей ненавидят ввод данных, обучающие наборы должны быть каким-то образом собраны. Эксперты по этому процессу часто рекомендуют использовать веб-сервис очистки, по сути, просто отдавая эту очень трудоемкую работу внешним сторонам, но это может иметь последствия для безопасности и вызвать другие проблемы. При сохранении ручной работы по сбору данных, опять же, должно быть предусмотрено, что часто является очень ручным и трудоемким процессом.

В некотором смысле «анализ данных человеком» для машинного обучения выглядит как ручной ввод данных, который иногда приходилось выполнять при устаревшей миграции. По мере того как облако становилось все более и более популярным, и компании помещали свои процессы и рабочие процессы в облако, некоторые обнаружили, что они не проработали практические аспекты того, как перенести свои корпоративные данные из изолированной устаревшей системы в облачные приложения. В результате некоторые люди, которые в противном случае были исследователями данных или творческими людьми с необходимыми навыками в области информационных технологий, столкнулись с неприятными задачами ввода данных.

То же самое может случиться с машинным обучением. Вы можете услышать, как специалист по обработке данных жалуется, что «я творческий человек» или «я нахожусь на стороне разработки», но кто-то должен делать грязную работу.

Опять же, если творческий поток не соответствует практической оценке делегирования рабочего процесса, будет несоответствие в том, как направлена обработка задачи. Когда у компании нет людей, которые выполняют работу по сбору данных при сборе наборов данных, ей не хватает ключевой части цепочки процедур для успешного проекта. Стоит помнить об этом каждый раз, когда компания пытается реализовать идею, основанную на разработке новых приложений машинного обучения.