В этом материале, подготовленном по книге «10 уравнений, которые правят миром» рассказываем об уравнении вознаграждения — необычной формуле, имеющей прикладное значение в повседневной жизни.
Еда, дом и партнер
Чтобы выживать, животным нужны еда, убежище и партнер для воспроизводства. В основе этих трех требований для жизни лежит нечто еще более фундаментальное, что должны получать животные: информация. Они собирают информацию о еде, убежище и половой жизни исходя из собственного опыта и опыта других особей. Затем применяют ее для выживания и воспроизводства.
Возьмем муравьев. Многие из них используют химический маркер-феромон, чтобы показать другим насекомым, где они были. Когда они находят лежащую на земле сладкую пищу, то оставляют метку. Другие муравьи ищут ее и следуют за ней до еды. В итоге срабатывает механизм обратной связи: все больше муравьев оставляют свои феромоны, и находить пищу можно все быстрее.
Людям тоже нужны пища, кров и партнер для воспроизводства. В прошлом мы тратили уйму времени на поиск информации, которая позволила бы нам получить и сохранить три этих важнейших элемента.
В современном обществе такой поиск изменил форму. Для значительной части населения мира поиск предметов первой необходимости уже завершен, однако поиск информации о еде, жилье и сексе продолжается и расширяется: теперь он принимает форму просмотра кулинарных передач и реалити-шоу; чтения сплетен о знаменитостях; изучения выставленного на продажу жилья и цен на недвижимость. Мы публикуем в соцсетях фотографии наших партнеров, обеда, детей и домов.
Уравнение вознаграждения
В соцсетях мы получаем вознаграждение в виде, например, лайков, они дают нам мгновенное ощущение самоутверждения. Здесь мы можем использовать уравнение вознаграждения:
Qt+1 = (1 — α)Qt + αRt
Кроме времени t и вознаграждения Rt сюда входят еще два символа: Qt отражает вашу оценку качества вознаграждения, а α определяет, насколько быстро вы теряете уверенность при его отсутствии. Первый компонент — (1 — α)Qt — понижает оценку качества вознаграждения. Например, если мы выберем α = 0,1, на каждом шаге наша оценка будет снижаться на 1 — 0,1 = 90% по сравнению с предыдущим уровнем. Второй компонент — αRt — повышает нашу оценку стоимости вознаграждения. Если вознаграждение равно 1, добавляем α к нашей оценке. Сложив оба компонента, можем увидеть, как работает уравнение в целом.
Или представьте, что вы вознаграждаете себя просмотром сериала. Первая серия — отличная (как всегда), вторая — средняя, третья — чуть лучше.
Вашему мозгу это не особо важно, но вас это заботит. Вы хотите смотреть в выходной что-то хорошее. Решение — использовать уравнение вознаграждения. Для телесериала хорошим значением для нашего показателя снижения доверия будет α = 0,5, или половина. Это очень высокая скорость забывания прошлого, но хорошее шоу должно постоянно дарить новые идеи.
Вот ваши действия. Вы ставите первому эпизоду оценку по 10-балльной шкале — скажем, 9. Итак, Q1 = 9. Если смотрите серии подряд, то держите в голове число 9 и начните следующую серию. Поставьте ей оценку. Предположим, это 6. Теперь имеем Q2 = 9/2 + 6/2 = 7,5. Удобно каждый раз округлять, так что новая оценка будет 8. Смотрим следующий эпизод. Пусть на этот раз мы ставим 7. Берем Q2 = 8/2 + 7/2 = 7,5, снова округляем до 8.
Продолжаем в том же духе и дальше. Сила этого метода в том, что не нужно помнить, насколько сильно вам понравились предыдущие эпизоды. Вы отмечаете Qt для последней серии в голове.
Сохранять отслеживающую переменную Qt можно не только при просмотре телесериала, но и при оценке того, нравится ли вам ходить на разные мероприятия, читать различных авторов или заниматься в классе йоги. Это единственное число для каждого занятия позволяет понимать общее вознаграждение за различную деятельность, не возвращаясь к конкретным моментам, когда вас втянули в разговор с одним скучным математиком в баре после работы или когда вы повредили седалищный нерв во время йоги.
Когда бросать просмотр? Чтобы ответить на этот вопрос, нужно установить личный порог. Например число 7. Если качество серий падает до 7, остановитесь. Это довольно жесткое правило, поскольку оно означает, что если текущий уровень 8, а очередной эпизод получает оценку 6, то получается 8/2 + 6/2 = 7 и вы вынуждены бросить просмотр. Но кажется, что это справедливо. Хороший сериал должен регулярно выдавать эпизоды уровня 8, 9 и 10. Если он достигает таких высот, то переживет оценку 6 и даже 5.
Например, если текущее значение Qt = 10 и я вижу серию, которая тянет только на 5, то Qt+1 = 10/2 + 5/2 = 7,5, округляю до 8 и могу смотреть дальше. Однако для продолжения просмотра следующий эпизод должен оказаться хорошим.
Наш игровой счет
В большинстве компьютерных игр для отслеживания ваших успехов используется только одно число — набранные очки или уровень. Очки подобны Qt в уравнении вознаграждения: они отслеживают ваши вознаграждения. Ваш счет меняется в зависимости от ваших успехов.
Ваш мозг действует аналогично. Химическое вещество дофамин часто называют элементом системы вознаграждения мозга, и иногда люди говорят, что были «вознаграждены» приливом дофамина.
Однако такая картина недостаточно детализирована. Более двадцати лет назад немецкий нейробиолог Вольфрам Шульц рассмотрел экспериментальные данные по дофамину и пришел к выводу, что «дофаминовые нейроны активируются событиями, которые лучше прогноза, не затрагиваются теми, которые настолько же хороши, как он, и подавляются теми, которые хуже его». Итак, дофамин не вознаграждение Rt, а отслеживающий сигнал Qt. Мозг использует его для оценки вознаграждения: он дает нам наш игровой счет.
По книге «10 уравнений, которые правят миром».