08:29, 23 октября 2021

О допамине и reinforcement learning

Есть у Гугла подразделение, точнее, купленная им компания, называется DeepMind. Занимается AI и машинным обучением. Успешно разработала программы, которые победили людей и другие программы в шахматы, го и даже Starcraft 2.

Свои подходы в исследованиях ребята не скрывают и после каждого успеха публикуют статьи в своей сфере в каком-нибудь Nature. Подходы эти прелюбопытные, не в последнюю очередь из-за достигнутых успехов.

Вообще, стремительное восхождение методов машинного обучения в 21 веке чем-то напоминает успех математического анализа в 18 веке, который в дальнейшем проник во все науки и весьма бодро их обогатил своими методами.

А успехи у машинного обучения есть, и еще какие: и диагностику болезней проводят лучше людей, и систему рекомендаций, и во многие игры играют лучше. Скоро будут лучше водить, а потом и за пивом ходить в ларек. Все-таки способность ходить за пивом как оказалось это венец эволюции и в плане технического исполнения гораздо сложнее, чем играть в го или диагностировать рак.

Количество переходило в качество весьма постепенно, машинное обучение брало разные идеи у смежных наук - например динамическое программирование из operations research - пока фактически не объединило в себе ключевые наработки из статистики, исследований операций, теории графов, теории игр и прочих смежных областей.

И когда все компоненты были собраны, осталось их подогнать друг к другу, добавить несколько чисто технических инсайтов, чтобы вся эта махина начала обильно плодоносить.

В 2015 году группа исследователей из DeepMind публикует статью Human-level control through deep reinforcement learning в журнале Nature, где в общих чертах выложены результаты их исследований на тему в названии статьи и некоторые общие размышления о том, как может быть устроена система принятия решений в живых организмах, в том числе в человеке. Исследователи достаточно амбициозно заявляют, что нащупали общий метод, единый алгоритм возникновения искусственного интеллекта в широком смысле, который необходим для развития разного рода компетенций в ходе решения различных сложных задач.

Объединив передовые наработки в нейронных сетях, которые суть сложные математические и сетевые объекты, с алгоритмами обучения с подкреплением, которые можно вольно приравнять к "правилам игры", в которой перед объектами, оперирующими в некоторой "среде" ставится задача аппроксимации оптимальной функции "действие-ценность" (action-value function), ученым удалось обучить искусственный интеллект различать такую концепцию как "категория объекта" напрямую из потока сырых данных, например пикселей. То есть созданный цифровой голем сам из потока сигналов и импульсов построил для себя "мир вещей и объектов", наделив их какими-то разделительными между собой характеристиками.

Вот такое вот цифровое "да будет свет. И стал свет".

О философских импликациях этого события как-нибудь в другой раз напишу. А сейчас пойдемте дальше.

В журнале Science в 1997 году была опубликована статья A neural substrate of prediction and reward, в которой исследователи рассматривали теорию о том, что уровень допамина колеблется с тем, чтобы давать обратную связь между предсказанием и ошибкой в предсказании, таким образом стимулируя обучение организма через его систему вознаграждения. Там же авторы пишут, что если наблюдение в точности соответствует предсказанию, выброса допамина не происходит, т.е. человек учится только в ситуации, когда его предсказания ошибочны. Они провели исследования, и уровни допамина колеблются более-менее в соответствии с их этой теорией.

Кроме чисто научного интереса к этой статье у меня есть и бытовой: получается, человек в гораздо большей степени зависим от процесса обучения чему-то, чем он предполагает. Конечно, выброс допамина триггерится не только этим, но роль развития и обучения изначально очень высокая заложена в живых организмах.

Вместо послесловия

Создается впечатление, что человечество подходит все ближе к ближе к понимаю того, как функционирует сам человек.

И возможно это то знание, которое потенциально может перевести вопрос индивидуального счастья из философского в чисто технический.

Еще по теме