Режимы подкреплений

Тема использования режимов подкреплений в играх впервые была поднята в докладе “Behavioral Game Design” десять лет назад. Когда я прочитал статью, основанную на докладе, это был для меня шок. Я стал анализировать игры с точки зрения бихевиоризма, обратил свое внимание на доступную психологическую литературу и начал экспериментировать с наградами в своих играх.

В этой статье я попытаюсь человеческим языком пересказать общую теорию о режимах подкреплений, собранную из разных источников. Приправлю, как обычно, игровыми примерами.

Немного напомню

Подкрепление – это мгновенная, приятная для игрока реакция игры на его действия. Подкрепления служат для того, чтобы увеличивать частоту и количество повторений определенных действий.

Если для вас это звучит немного заумно, прочитайте сначала предыдущую статью: “Кнут и пряник”. В ней детально описаны два вида подкреплений с примерами. А если неохота читать, то просто для упрощения будем считать, что подкрепление – это что-то приятное для игрока, которое появляется сразу же после выполнения им какого-то действия.

Люди (и животные в целом) подстраивают свое поведение под тип подкреплений. Например, если экзамены нужно сдавать раз в полгода, многие студенты начнут прикладывать усилия только ближе к экзаменам. Другими словами, вероятность того, что средний студент будет прилежно учиться в середине семестра – мала.

Преподаватель может начать проводить контрольные работы один раз в месяц. В этом случае студенты начнут готовиться за день-два до контрольной. Таким образом они подстраиваются под измененные условия. В итоге повышается вероятность того, что средний студент будет заниматься учебой в середине семестра. Но эта учеба не будет постоянной: в начале месяца студент пьет, гуляет, веселится, развивается, как личность, а за несколько дней до контрольной он с большой вероятностью возьмется за книги.

Зато если преподаватель решит проводить контрольные в случайные дни, многие будут готовиться постоянно – ведь неизвестно, когда следующая контрольная: завтра или через неделю. Другими словами, вероятность того, что студенты будут более часто готовиться – самая высокая из этих трех ситуаций.

Все это время преподаватель менял режим подкреплений: правило, устанавливающее вероятность, с которой подкрепление будет происходить. Существует много подобных режимов, но все их можно классифицировать по двум основным параметрам:

время
количество действий

В первом случае подкрепление происходит через какое-то время после выполнения действия (режим временного подкрепления). Например, помидоры в игре растут 8 игровых часов. Чтобы получить награду, игрок должен заходить в игру один раз в 8 часов.

Во втором случае подкрепление происходит, в зависимости от того, сколько действий было сделано (режим пропорционального подкрепления). Например, чтобы срубить дерево, нужно три раза на нем кликнуть.

“Буду нажимать рычажок за еду”

В зависимости от этих двух параметров выделяют четыре базовых режима подкрепления, на которых строятся все остальные:

Режим подкрепления с постоянным соотношением
Режим подкрепления с постоянным интервалом
Режим подкрепления с вариативным соотношением
Режим подкрепления с вариативным интервалом

Режим подкрепления с постоянным соотношением

Это режим, в котором игрок получает награды за определенное количество действий. Например, лут выпадает из каждого пятого убитого монстра; чтобы убить противника, нужно 10 раз в него выстрелить; чтобы выкорчевать пень, нужно три раза на него кликнуть мышкой и т.д.

Рассмотрим два крайних случая: в одном награда выдается за каждое действие, в другом – за довольно большое количество выполненных действий.

Награда за каждое действие

В статье “Кнут и пряник” мы рассматривали случай, когда за каждое “правильное” действие игрок получал подкрепление. Разбил ящик – нашел монетку; разбил еще один – еще одну монетку, и т.д. Такой режим называется непрерывным подкреплением. Игрок активно выполняет действия для того, чтобы получать награды. Но довольно быстро он пресыщается наградами.

Обычно такой режим используют в самом начале обучения. Очень часто, например, во время туториала игрок получает внутриигровую валюту или несколько уровней опыта. Каждое действие приводит к награде. Сейчас, наверное, в любой хорошей социальной игре первые 10-30 минут игрок получает награды за все свои действия. Это правильно, ведь в самом начале обучения, когда нужно понять большое количество информации, игрок совершает какой-то труд. Соответственно, чтобы удержать игрока, мы должны награждать его за этот труд.

Но будучи хорошим для обучения, режим непрерывного подкрепления очень плохо справляется с удержанием игрока в длительной перспективе. Да и в целом он экономически неэффективен. Очень тяжело награждать игрока адекватной наградой за каждое его правильное действие.

Получение нового уровня – это немного более сложный режим. Награда выдается за условно определенное количество действий. Однако с каждым уровнем количество действий до получения награды растет.

Награда за большое количество действий

Представим, что ваш игровой персонаж прокачан до 10 уровня. А чтобы получить 11й уровень нужно убить 1000 монстров. В этом случае вы, скорее всего или пойдете выполнять дополнительные квесты, или будете исследовать мир, или займетесь сбором объектов для крафтинга, или займетесь любой другой активностью. И только когда почувствуете, что до получения следующего уровня осталось относительно немного, вы все больше будете концентрироваться на непосредственном получении уровня.

Если вам тяжело представить подобную ситуацию, представьте себе небольшой участок во FrontierVille, на котором растет несколько деревьев. Изменим правила. Теперь, чтобы срубить каждое дерево, нужно выполнить 100 кликов мышью. Допустим, вы только что срубили три дерева. Нужно приступить к четвертому. Думаю, что распространенным поведением в игре было бы следующее:

игроки выполняют какие-то игровые действия (строят здания, собирают помидоры и т.д.)
параллельно во время каждой игровой сессии делают по нескольку кликов по деревьям
когда остается 20-30 кликов до того, чтобы срубить дерево, игроки сразу за один раз выполнят эти 20-30 кликов.

Такое происходит не только с людьми, но и с другими существами. В случае с дельфинами, например, если дельфин знает, что получит рыбку только после третьего прыжка, первые два прыжка будут выполнены не очень качественно. А третий будет самым высоким.

Мы, разработчики, знаем, что после получения очередного уровня игрок расслабится и “возьмет паузу”, поэтому можем заполнить период “расслабления” другими активностями. Например, как я писал выше, дать возможность выполнить неосновные квесты или заняться исследованием мира.

Режим подкрепления с постоянным интервалом

Это режим, в котором игрок получает награду, если выполняет действие через определенный промежуток времени. Например, раз в день собирает урожай на грядке. Общая интенсивность действий в этом режиме меньше, чем в предыдущем, так как игрок понимает, что получение награды не зависит от его активности. Убьет он 2 зомби за это время или 200 – значения для награды не имеет. Игрок будет подкреплен точно через определенный временной интервал.

Режим подкрепления с постоянным интервалом лежит в основе нерегулярного игрового процесса. А это целый жанр: социальные игры. Но в “больших” играх этот элемент также использовался, хоть и в несколько другом виде. Например, появление на арене в Quake брони, оружия и “Quad Damage” один раз в определенное время добавляло серьезной тактической глубины мультиплейерным сражениям. Восстановление маны со временем и доступность каких-то игровых возможностей в определенное время суток – это также подкрепления с постоянным интервалом.

Постоянный интервал между появлением квада приводил к интересному напряжению в мультиплейерных сражениях.

Как и в предыдущем режиме, здесь существует пауза после очередного подкрепления. Игрок знает, что следующую награду он получит, допустим, через тридцать минут. Он прекращает играть на определенное время, но чем ближе ко времени подкрепления, тем чаще проверяет, не появилась ли награда. Соответственно, дизайнер должен быть готов к этой паузе и подготовить, если нужно, дополнительные активности, которыми может заняться игрок в ожидании награды.

Кстати, эту паузу после очередного подкрепления мы легком можем видеть в реальной жизни. Например, экзамены происходят в определенное время: зима-лето-зима-лето. Соответственно, после сдачи экзаменов многие студенты “берут паузу”, и начинают серьезно готовиться (увеличивается активность действий) только ближе к следующей сессии.

Режим подкрепления с вариативным соотношением

В этом режиме подкрепление происходит за случайное количество действий. Бутылочка маны может выпасть как из первого убитого монстра, так и из двадцать первого.

Благодаря непредсказуемости подкрепления для игрока всегда есть смысл выполнять действия: ведь награда может появиться после каждого следующего убийства/открытого сундука/крафта и т.д.

Своим успехом “однорукие бандиты” обязаны именно случайности наград. То же и в тренировке животных. Чтобы собака, например, поняла, какое действие подкрепляется, используется режим с постоянным соотношением: ее награждают, допустим, за каждое правильное действие. Но после того, как она поняла, какое действие является “правильным”, тренер переходит на режим с вариативным соотношением. То есть награждает собаку не за каждое действие, а случайным образом. Собака не знает, когда ожидать награду, поэтому выполняет нужное действие всегда.

Режим подкрепления с вариативным соотношением имеет самый высокий уровень общей активности среди базовых режимов. Причем эта активность не имеет паузы, как в режимах с постоянным соотношением. Игрок не может остановиться, ведь в любой момент может получить награду. Поэтому, если хотите создать внутреннюю аддиктивность, пользуйтесь вариативным соотношением.

Кстати, если правильное действие – это “купить”, а награда – “очень ценное оружие”, то режим с вариативным подкреплением превращается из просто аддиктивного геймплея во вполне реальную бизнес-модель. Игрок покупает ключик от сундучка, в котором может что-то лежать, но он также может быть пуст. Сама покупка в этой модели – это лишь правильное действие, а не приобретение какой-то ценности. Получит игрок награду после первой покупки или двадцать первой – дело случая (или порядочности разработчиков). Но для самого игрока ситуация выглядит точно так же, как и с рандомным выпадением лута из монстра. Игрок убивает-убивает-убивает в надежде получить ценный лут. Игрок покупает-покупает-покупает в надежде получить очень ценное оружие.

Оба сундучка содержат случайное оружие. Для того, чтобы открыть один из них, нужны специальные умения у игровых персонажей. А для того, чтобы открыть второй, нужно просто заплатить. Угадайте, компания-разработчик какого из сундучков была закрыта?

Несмотря на то, что я не порицаю такой способ получения денег, меня как гейм-дизайнера больше интересует использование такой аддиктивности в создании уникального игрового опыта, объединении механистического “залипания” и процедурного нарратива. Первое дает мне возможность удержать игрока, а второе – создать для него внутреннюю ценность, вызвать эмоции.

Режим подкрепления с вариативным интервалом

По аналогии с предыдущим режимом, здесь награда появляется в случайные промежутки времени. Так как она не зависит от того, что делает игрок, его активность при таком режиме подкрепления не очень высока. Однако как и в предыдущем режиме, она постоянна.

Действительно, зачем быть активным, если получишь награду независимо от того, убьешь 10 зомби или 1000? Но так как награда может появится в любой момент, нужно просто хоть как-то играть. Поэтому активность игрока низкая, но постоянная. И только если он уже очень долго не получает награды, его активность медленно уменьшается.

И в реальной жизни, и в играх такой вид подкрепления встречается редко. Хотя примеры найти можно. Если учитель в случайные промежутки времени проводит контрольные, то ученики, ожидая каждый раз контрольной, будут постоянно готовиться.

Для игр, по всей видимости, этот режим не очень нужен, так как остальные режимы “умеют” делать то же, но лучше. Постоянную активность, например, позволяет сохранять режим с вариативным соотношением, но в нем эта активность будет большей.

Теоретически могу представить использование этого режима в играх. Но также я хорошо понимаю, что нужно прототипировать и хорошо понимать, зачем ты это делаешь. Поэтому без прототипирования я не могу быть уверенным, что эти идеи будут работать.

Пример №1: квейко-шутер

Для того, чтобы увеличить вероятность пребывания игроков в какой-то определенной зоне уровня, там можно поставить Quad Damage. Но при этом нужно сделать так, чтобы он появлялся в случайное время между 5 и 300 секундами (значения взял для примера).

В классическом варианте опытные игроки чувствуют время до появления Quad Damage и стараются находится возле места его появления вовремя.

В нашем же случае (рандомное время) какая-то часть игроков будет постоянно патрулировать возле места появления Quad Damage, понимая, что он может появится в любое время. Это теоретически может создать дополнительную тактическую глубину на уровне.

Пример №2: социальная игра

Мне кажется, что это довольно опасная идея, так как очень зависит от баланса. Если у вас есть опыт в социалках и мысли по поводу этой идеи, рад буду прочитать в комментариях.

Иногда бывает так, что до каких-то больших наград (например, level-up и открытие нового контента) нужно несколько дней игры выполнять рутинные действия. Игрока уже не радует текущий контент, а до открытия нового еще долго. Если по статистике такой провис не приводит к покупке объектов за реальные деньги, и при этом теряется часть игроков, то подобная ситуация является проблемной.

Теоретически ситуацию можно исправить подкреплениями с вариативным интервалом. Допустим, игрок знает, что в случайное время (например, между 1 и 60 минутами) его пребывания в игре (клиент открыт), он получает небольшую награду. В этом случае он может ничего не делать, а просто открыть игру и пойти пить кофе. Что игра получает взамен? Игрока, который не уходит из игры, даже если до большой награды еще далеко.

Думаю, очевидно, что награда, выдаваемая в случайные временные интервалы, должна зависеть от уровня игрока (или еще от какого-то параметра, который позволяет делать ее актуальной). Например, возможность получать такую награду открывается на 10 уровне. Это будет 50 монеток. А на 15 уровне это может быть 200 монеток, 1 рубин и 1 сапфир.

Однако нужно также подумать о том, не будут ли такие награды вызывать побочные эффекты. Могу представить реалистичной ситуацию, когда игрок так переживает, что пока он едет с офиса домой, он теряет драгоценные монетки, что бросает играть. С другой стороны, вон люди, которые ночью просыпаются, чтобы урожай собрать, не бросают игру. Так что ничего страшного))

Call of Duty пытается удивлять игрока новым интерактивным опытом через случайные промежутки времени. Возможно, это и есть подкрепления с вариативным интервалом.

Кстати, я вот пока писал, подумал, что неожиданные повороты событий в игре или вообще неожиданное получение новой геймплейной особенности могут также являться подкреплениями с вариативным интервалом. Ведь игрок ожидает, что игра его будет развлекать, но не знает, когда следующий раз произойдет что-то интересное. Возможно, даже просто сюжетные ролики могут выступать такими подкреплениями.

Если у вас будут еще какие-то примеры из игры – пишите в комментариях.

Заключение

Режимы подкреплений – это инструмент игрового дизайнера, помогающий влиять на игрока посредством структурированных наград. С помощью этого инструмента можно изменять поведение игрока, его эмоции, ритм и в целом, удовольствие, получаемое от игры.

Но режимы подкреплений – это в первую очередь психологический инструмент. Соответственно, его можно использовать для влияния на человека напрямую, не давая ему взамен какой-то ценности.

Я в своем блоге ратую за создание ценностей в играх. Коммерческие игры обязательно должны разработчикам приносить деньги. И мы должны об этом думать в первую очередь. Но вместе с этим, в ту же первую очередь 🙂 предлагаю думать о ценности, которые несут наши игры. Пусть это будут эмоции, пусть это будет хорошее настроение, пусть это будет возможность расслабиться или наоборот – пошевелить мозгами, пусть это будет адреналин или радость соревнования, пусть это будет радость общения. Но только пусть это будет не “пустое” использование психологии для одних лишь денег.

Режимы подкреплений

Немного напомню

Режимы подкреплений