Как инженеры могут использовать повышение градиента для улучшения систем машинного обучения?

Видео: Машинное обучение и нейросети / Интервью с техническим директором Яндекс.Дзен

Содержание

Q:

A:

Как и другие виды повышения, повышение градиента стремится превратить нескольких слабых учеников в одного сильного ученика, что является своего рода «краудсорсингом» обучающего потенциала. Другой способ, которым некоторые объясняют повышение градиента, состоит в том, что инженеры добавляют переменные для точной настройки неопределенного уравнения, чтобы получить более точные результаты.

Повышение градиента также описывается как «итеративный» подход, причем итерации, возможно, характеризуются как добавление отдельных слабых учеников к одной модели сильного ученика.

Вот убедительное описание того, как смотреть на тип реализации повышения градиента, который улучшит результаты машинного обучения:

Системные администраторы сначала создали набор слабых учеников. Думайте о них, например, как о массиве объектов A-F, каждый из которых сидел за виртуальным столом и работал над проблемой, например, классификацией двоичных изображений.

В приведенном выше примере инженеры сначала оценивают каждого слабого ученика, возможно, произвольно, назначая уровень влияния A, B, C и т. Д.

Далее программа запустит заданный набор тренировочных образов. Затем, учитывая результаты, он перевесит массу слабых учеников. Если А угадал намного лучше, чем В и С, влияние А будет соответственно увеличено.

В этом упрощенном описании улучшения улучшающего алгоритма относительно легко увидеть, как более сложный подход даст улучшенные результаты. Слабые ученики «думают вместе» и, в свою очередь, оптимизируют проблему ОД.

В результате инженеры могут использовать «ансамблевый» подход повышения градиента практически в любом проекте ML, от распознавания изображений до классификации пользовательских рекомендаций или анализа естественного языка. По сути, это подход «командного духа» к ML, который привлекает к себе внимание некоторых влиятельных игроков.

В частности, повышение градиента часто работает с дифференцируемой функцией потерь.

В другой модели, используемой для объяснения повышения градиента, другая функция этого вида повышения состоит в том, чтобы иметь возможность изолировать классификации или переменные, которые, на более широкой картине, являются просто шумом. Разделяя каждое дерево регрессии переменных или структуру данных в область одного слабого ученика, инженеры могут создавать модели, которые будут более точно «озвучивать» показатели шума. Другими словами, показатель, охватываемый несчастливым слабым учеником, будет маргинализован, так как этот слабый ученик перенесен вниз и получит меньшее влияние.