Обзоры книг

Математика и бизнес: задачи о многоруком бандите по Бернулли

15 июля 2020

Обзоры книг

15 июля 2020

Сегодня поговорим о бизнесе языком математики. Нам часто приходится решать задачи, состоящие из совокупности действий, обеспечивающих неопределенный выигрыш. В таких задачах вознаграждения от альтернатив представляют собой распределение, а не фиксированную величину. Это может быть выбор профессии, испытания лекарственных препаратов, выбор площадки для размещения рекламы, выбор технологий и так далее.

Любой выбор из совокупности действий, обеспечивающий неопределенный выигрыш, можно смоделировать в виде задачи о многоруком бандите. Смотрим подробности в книге «Модельное мышление». Будет не очень просто, зато очень полезно.

Модельное мышление

Многорукий бандит по Бернулли

Начнем с подкласса задач о многоруком бандите, в которых каждая альтернатива имеет фиксированную вероятность обеспечения успешного исхода. Этот подкласс эквивалентен выбору одной из множества урн Бернулли, содержащих разное количество серых и белых шаров. Именно поэтому данный класс задач называется задачами о многоруком бандите по Бернулли. Еще их называют частотными задачами, поскольку ответственный за принятие решений ничего не знает о распределениях и получает информацию о них по мере исследования альтернатив.

Рассмотрим следующий пример. Предположим, у компании по чистке дымоходов есть список телефонных номеров недавних покупателей домов. Компания тестирует три способа сделать коммерческое предложение:

— запланированная встреча («Здравствуйте! Я звоню, чтобы договориться о времени ежегодной чистки вашего дымохода»),

— выражение обеспокоенности («Здравствуйте! Знаете ли вы, что грязный дымоход может стать причиной пожара?»)

— и индивидуальный подход («Здравствуйте! Меня зовут Хилди. Мы с отцом основали компанию по чистке дымоходов четырнадцать лет назад»).

Каждое коммерческое предложение имеет неизвестную вероятность успеха. Предположим, компания сначала пробует подход «запланированная встреча» и терпит неудачу. Тогда она переходит ко второму подходу — выражению обеспокоенности — и заполучает клиента. Подход срабатывает и во время следующего звонка, но еще после трех звонков тоже терпит неудачу. Компания применяет третий подход, который срабатывает во время первого звонка и терпит неудачу в ходе следующих четырех.

После десяти звонков второй подход обеспечивает самый высокий процент успеха, однако первый подход применялся только один раз.

Человек, принимающий решение, становится перед выбором между:

использованием (выбором наиболее подходящей альтернативы)

и исследованием (возвратом к двум другим альтернативам для получения дополнительной информации).

Аналогичную задачу решает, например, больница при выборе одной из хирургических процедур и фармацевтическая компания, тестирующая различные протоколы применения лекарственных препаратов. Каждый протокол имеет неизвестную вероятность успеха.

«Выборочное исследование, затем жадный выбор»

Для более глубокого понимания компромисса между исследованием и использованием познакомимся с эвристическим алгоритмом, который называется «выборочное исследование, затем жадный выбор».

Он подразумевает проверку альтернатив фиксированное количество раз M, после чего следует выбор альтернативы с максимальным средним выигрышем. Для того чтобы определить величину M, можно воспользоваться урной Бернулли и правилами квадратного корня. Стандартное отклонение среднего соотношения ограничено сверху величиной

Например, если каждая альтернатива тестируется 100 раз, стандартное отклонение среднего соотношения будет равно 5 процентам. Если применить правило двух стандартных отклонений для выявления значимого различия, можно уверенно провести разграничение между соотношениями, отличающимися на 10 процентов. Если одна альтернатива обеспечивает успешный исход в 70 процентах случаев, а другая — в 55 процентах случаев, мы можем с 95-процентной уверенностью утверждать, что первый вариант лучше.

«Эвристический алгоритм адаптивного уровня исследования»

Вторая эвристика — «эвристический алгоритм адаптивного уровня исследования» — выделяет по десять исходных испытаний на каждую альтернативу. Следующие двадцать испытаний распределяются пропорционально доле успешных попыток. Если во время первых десяти испытаний одна альтернатива обеспечивает шесть успешных попыток, а другая только две, то первая альтернатива получит три четверти от следующих двадцати испытаний.

Вторая группа из двадцати испытаний тоже может быть распределена в соответствии с отношением квадратов вероятностей успеха. Если успешные попытки продолжатся в тех же пропорциях, лучшая альтернатива 90 процентов третьей группы из двадцати испытаний.

Если у одной альтернативы намного выше вероятность успеха по сравнению с другой альтернативой, скажем 80 процентов против 10 процентов, алгоритм не станет тратить сотню испытаний на вторую альтернативу. Однако если обе вероятности имеют близкие значения, алгоритм продолжит экспериментировать.

Следование эвристическому алгоритму «выборочное исследование, а затем жадный выбор» порой может быть неэффективным и даже неэтичным. Когда Роберт Бартлетт испытывал искусственное легкое, процент его успеха существенно превышал показатель других альтернатив. Продолжение их тестирования, тогда как искусственное легкое демонстрировало наилучшие результаты, привело бы к бессмысленным смертельным исходам. Бартлетт прекратил эксперименты с другими альтернативами. Все пациенты получили искусственное легкое.

В действительности это доказывает наличие оптимального правила: если альтернатива неизменно гарантирует требуемый результат, нужно продолжать ее выбирать. Дальнейшие эксперименты могут не иметь никакой ценности, поскольку никакая другая альтернатива не будет эффективнее.

Подготовлено по книге «Модельное мышление».

Рубрика

Обзоры книг