Усиление обучения Vs. Глубокое обучение: в чем разница?

Видео: Что такое глубокое обучение (Deep Learning) и почему это важно?

Содержание

Что такое обучение усилению?
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Что такое глубокое обучение?

вынос:

Мы пошли к экспертам и попросили их ответить на важные различия между обучением с подкреплением и обучением с глубоким подкреплением

Алгоритмы машинного обучения могут облегчить жизнь и работу, освобождая нас от лишних задач и работая быстрее и умнее, чем целые группы людей. Однако существуют разные виды машинного обучения. Например, есть обучение с подкреплением и глубокое обучение с подкреплением.

«Несмотря на то, что обучение с подкреплением и обучение с глубоким подкреплением являются техниками машинного обучения, которые обучаются автономно, есть некоторые различия», - говорит д-р Кихо Лим, доцент кафедры информатики в Университете Уильяма Патерсона в Уэйне, Нью-Джерси. «Обучение с подкреплением - это динамическое обучение с методом проб и ошибок, чтобы максимизировать результат, в то время как обучение с глубоким подкреплением изучает существующие знания и применяет их к новому набору данных».

Но что именно это означает? Мы пошли к экспертам - и попросили их привести множество примеров!

Что такое обучение усилению?

Как говорит Лим, обучение с подкреплением - это практика обучения методом проб и ошибок - и практикой. «В этой дисциплине модель учится в развертывании, постепенно получая вознаграждение за правильный прогноз и штрафуясь за неправильный прогноз», - считает Хунаид Хамид, стажер-исследователь в Data Science Dojo в Редмонде, штат Вашингтон. (Прочтите, что обучение подкреплению может дать хороший динамичный раскрут маркетингу.)

«Обучение подкреплению обычно наблюдается в играх с ИИ, а со временем улучшается в игре».

Три основных компонента в обучении подкреплению - это агент, действие и вознаграждение. «Усиленное обучение основано на определенной методологии и определяет наилучшие средства для достижения наилучшего результата», - говорит д-р Анкур Тейли, руководитель отдела информационных технологий в Fiddler Labs в Маунтин-Вью, Калифорния. «Это очень похоже на структуру того, как мы играем в видеоигру, в которой персонаж (агент) участвует в серии испытаний (действий), чтобы получить наибольшее количество очков (вознаграждение)».

Тем не менее, это автономная система самообучения. Используя пример с видеоигрой, Тейли говорит, что положительное вознаграждение может прийти от увеличения количества очков или очков, а отрицательное вознаграждение может возникнуть в результате столкновения с препятствиями или совершения неблагоприятных действий.

Крис Николсон, генеральный директор Сан-Франциско, базирующийся в Калифорнии Skymind, опирается на пример того, как алгоритмы учатся методом проб и ошибок ». Представьте себе, что вы впервые играете в Super Mario Brothers и пытаетесь понять, как победить: вы исследуете пространство, Вы прыгаете, прыгаете, ударяете монету, приземляетесь на черепаху, и затем вы видите, что происходит ».

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Изучая хорошие и плохие действия, игра учит вас, как себя вести. «Обучение с подкреплением делает это в любой ситуации: видеоигры, настольные игры, моделирование реальных случаев использования». Фактически, Николсон говорит, что его организация использует обучение с подкреплением и моделирование, чтобы помочь компаниям найти оптимальный путь принятия решений в сложной ситуации.

В обучении с подкреплением агент принимает несколько меньших решений для достижения большей цели. Еще один пример - учить робота ходить. «Вместо жестких указаний: поднять одну ногу, согнуть колено, опустить ее и т. Д., В обучающем методе подкрепления можно было бы провести эксперимент с роботом с различными последовательностями движений и выяснить, какие комбинации являются наиболее успешными при его выполнении. двигаться вперед », - говорит Стивен Бэйли, специалист по данным и аналитический инструмент в Immuta в Колледж-Парке, штат Мэриленд.

Помимо видеоигр и робототехники, есть и другие примеры, которые могут помочь объяснить, как работает обучение с подкреплением. Брэндон Хейни, главный специалист по данным на Бабел-стрит в Вашингтоне, округ Колумбия, сравнивает это с обучением человека ездить на велосипеде. «Если вы стоите и поднимаете ноги без педалирования, падение - или штраф - неизбежно».

Однако, если вы начнете крутить педали, вы останетесь на велосипеде - вознаграждение - и перейдете к следующему состоянию.

«У обучения в области подкрепления есть приложения, охватывающие несколько секторов, включая финансовые решения, химию, производство и, конечно, робототехнику», - говорит Хейни.

Что такое глубокое обучение?

Однако решения могут стать слишком сложными для усиленного подхода к обучению. Хейни говорит, что алгоритм может быть ошеломляющим для обучения из всех состояний и определения пути вознаграждения. «Именно здесь может помочь глубокое обучение с подкреплением:« глубокая »часть относится к применению нейронной сети для оценки состояний вместо того, чтобы отображать каждое решение, создавая более управляемое пространство решений в процессе принятия решений».

Это не новая концепция. Хейни говорит, что существует с 1970-х годов. «Но с появлением дешевых и мощных вычислений дополнительные преимущества нейронных сетей могут теперь помочь в решении областей, чтобы уменьшить сложность решения», - объясняет он. (Читайте В чем разница между искусственным интеллектом и нейронными сетями?)

Так как же это работает? По словам Питера МакКензи (Peter MacKenzie), руководителя группы искусственного интеллекта в Северной и Южной Америке в Teradata, слишком много информации для хранения в таблицах, а табличные методы потребуют, чтобы агент посещал каждую комбинацию состояний и действий.

Тем не менее, глубокое обучение с подкреплением заменяет табличные методы оценки значений состояния на приближение функций. «Аппроксимация функций не только устраняет необходимость сохранять все пары состояний и значений в таблице, но и позволяет агенту обобщать значения состояний, которые он никогда раньше не видел, или имеет частичную информацию, используя значения сходных состояний». Маккензи говорит.

«Большая часть впечатляющих достижений в обучении с глубоким подкреплением произошла из-за сильной способности нейронных сетей обобщать через огромные пространства состояний». И МакКензи отмечает, что глубокое обучение с подкреплением использовалось в программах, которые побеждали некоторых из лучших конкурентов-людей. в таких играх, как Chess and Go, а также несут ответственность за многие достижения в робототехнике. (Прочтите 7 женщин-лидеров в области искусственного интеллекта, машинного обучения и робототехники.)

Бэйли соглашается и добавляет: «Ранее в этом году агент ИИ по имени AlphaStar победил лучшего в мире игрока StarCraft II - и это особенно интересно, потому что в отличие от таких игр, как Chess and Go, игроки в StarCraft не знают, что делает их противник». Вместо этого он говорит, что им нужно было разработать первоначальную стратегию, а затем адаптироваться, когда они узнали, что планировал их противник.

Но как это вообще возможно? Если модель имеет нейронную сеть из более чем пяти слоев, Хамид говорит, что она способна обслуживать данные большого размера. «Благодаря этому модель может научиться самостоятельно определять шаблоны, не имея куратора-инженера-человека, и выбирать переменные, которые должны быть введены в модель для изучения», - объясняет он.

В открытых сценариях вы действительно можете увидеть всю прелесть глубокого обучения. Тали использует пример бронирования столика в ресторане или размещения заказа на товар - ситуации, в которых агент должен реагировать на любые входные данные с другого конца.

«Обучение с глубоким подкреплением может использоваться для обучения разговорного агента непосредственно с другого или аудиосигнала с другого конца», - говорит он. «При использовании аудиосигнала агент может также научиться улавливать тонкие сигналы в звуке, такие как паузы, интонация и так далее - это сила глубокого обучения с подкреплением».

И новые приложения глубокого обучения подкрепления продолжают появляться. Определяя следующее лучшее действие для взаимодействия с клиентом, Маккензи говорит, что «состояние и действия могут включать в себя все комбинации продуктов, предложений и обмена сообщениями по всем различным каналам, причем каждый из них должен быть персонализирован - формулировка, изображения, цвета, шрифты».

Другим примером является оптимизация цепочки поставок, например, доставка скоропортящихся продуктов по всей территории США. «Возможные штаты включают текущее местоположение всех различных видов транспорта, инвентарь на всех заводах, складах и торговых точках, а также прогноз спроса для всех магазины », - говорит Маккензи.

«Использование глубокого обучения для представления состояния и пространства действий позволяет агенту принимать лучшие логистические решения, которые приводят к более своевременным поставкам при меньших затратах».