Проблема анализа данных при размещении ставок на спорт


Проблема анализа данных при размещении ставок на спорт

Анализ и слепое прочесывание данных: что это? Анализ простой стратегии ставок на ничьи. Почему делающие ставки игроки должны «считать обезьян»?..

Использование данных при разработке стратегии ставок является общепринятой практикой. Но какими бы впечатляющими не казались те или иные результаты, сам процесс их достижения также очень важен. В чем заключаются проблемы анализа данных при размещении ставок на спорт? Прочитайте статью для того, чтобы узнать ответ на этот вопрос.

В течение последних нескольких месяцев мне попадалось множество веб-сайтов, блогов и сообщений на форумах, посетители и авторы которых утверждают, что смогли выявить выгодные системы ставок путем простого ретроспективного применения нескольких кажущихся произвольными критериев отбора к большому объему данных о прошлых результатах и коэффициентах ставок.

В этой статье я рассмотрю трудности, связанные с поиском преимущества, которое обеспечит получение прибыли, посредством анализа данных: для игроков, делающих ставки на спорт, установление корреляционных связей без понимания причинных отношений сопряжено с неприятностями.

Анализ и слепое прочесывание данных

Анализ данных предполагает изучение больших объемов данных с целью обнаружения закономерностей и извлечения информации. В частности, задачей слепого прочесывания данных является их анализ с целью выявления закономерностей, которые могут быть представлены как статистически значимые.

Мир спортивных ставок позволяет с легкостью использовать анализ и слепое прочесывание данных. На различных веб-сайтах приведены большие объемы данных о прошлых результатах футбольных матчей и коэффициентах ставок, которые можно использовать для целей ретроспективного поиска и тестирования прибыльных систем ставок.

Однако основное ограничение, связанное с использованием этого метода в качестве инструмента анализа данных, заключается в том, что априорные гипотезы, объясняющие существование таких, закономерностей, как правило, не выдвигаются.

Корреляция без причинно-следственной связи 

Ранее я уже говорил о трудностях, связанных со смешиванием понятия корреляции с причинно-следственной связью, точности с достоверностью и обоснованностью. Для того чтобы система ставок считалась обоснованной и гарантировала достижение поставленных целей, в первую очередь необходимо понимать, от чего зависит ее эффективность.

Пока не будет выявлена причинно-следственная связь там, где прослеживается корреляция, вы не сможете понять, что может послужить причиной исчезновения корреляционной зависимости – корреляция без причинно-следственной связи не имеет смысла.

Футбольная лига English League Two: скрытые возможности для получения прибыли

Несколько недель назад при просмотре новостной ленты в Твиттере я обратил внимание на то, что если бы кто-то просто слепо делал ставки на все победы гостевых команд English League 2 в течение сезонов с 2012–2013 гг. по 2016–2017 гг. включительно (приблизительно 3000 ставок) с коэффициентами в размере 4,3 % от значений линии закрытия Пиннакл и почти 10 % от лучших рыночных коэффициентов, то результаты были бы впечатляющими.

Только однажды в течение этих пяти сезонов наблюдалась ситуация, когда фактические значения не соответствовали коэффициентам линии закрытия Пиннакл, но это расхождение было незначительным. Ниже приведен график прибыльности.

article-data-mining-3-in-article.jpg

Это объяснялось тем, что рынок недооценил шансы гостевых команды этого дивизиона, и именно поэтому их коэффициенты были завышены. Однако такое отклонение от нормы не является чем-то кратковременным; это, скорее, последовательная и систематическая ошибка делающих ставки игроков, которые недооценили вероятность побед гостевых команд English League 2 и чьи прогнозы значительно превосходили букмекерский коэффициент прибыльности. Но можем ли мы действительно предполагать существование какой-либо причинности в обнаруженных корреляционных отношениях?

Ставки на ничьи и их кажущаяся простота

Еще одной стратегий, с которой мне недавно довелось столкнуться, является стратегия ставок на ничьи. Считается, что она обеспечила почти 16 % прибыли по более чем 2500 ставкам при ретроспективном тестировании применительно к результатам футбольных матчей и коэффициентов Пиннакл за 2012 г.

Критерии отбора просты: ни одна из команд не должна завершить матч с ничейным результатом в предыдущих трех играх; коэффициенты должны быть в диапазоне от 3,20 до 3,56. При проведении тестирования с целью выявления статистической значимости такой прибыли мы обнаруживаем, что этот показатель в действительности очень примечателен. Подобные показатели прибыльности по ставкам, сделанным с указанными коэффициентам, наблюдаются с частотой один раз на миллион или еще реже с учетом, что существующие закономерности обусловлены только случайными факторами.

У вас может возникнуть вопрос, почему были выбраны именно эти критерии? Почему не предыдущие четыре, пять или шесть игр? Почему не коэффициенты в диапазоне 3,07–3,41 или 3,13–3,72? Конечно, выбор этих критериев почти наверняка не предшествовал этапу анализа данных: просто было обнаружено, что они обеспечили получение прибыльного результата. И объяснение не может быть скорректировано на основании результата, поскольку тогда это было бы равноценно переиначиванию явления причинно-следственной обусловленности.

В защиту этой стратегии вы можете теперь сказать: «Один раз на миллион: конечно, это должно означать, что все не случайно, не так ли?». Да, это так. Однако если мы тестируем миллион стратегий и находим одну, являющуюся статистически значимой (например, ту, о которой говорилось ранее), о чем это свидетельствует? В своей книге Одураченные случайностью (Fooled by Randomness) Нассим Талеб (Nassim Taleb) рассказывает фантастическую историю об обезьянах, пытающихся напечатать поэму Гомера на печатной машинке.

«Если бы в игре участвовало пять обезьян, то я был бы весьма впечатлен, если бы одной из них удалось напечатать "Илиаду", и даже мог бы поверить, что эта обезьяна является реинкарнацией поэта древности. Но если бы количество обезьян исчислялось миллиардом в миллиардной степени, это произвело бы на меня куда меньшее впечатление».

Как отмечает Талеб, не многие люди удосуживаются посчитать всех обезьян, а если бы они все же так сделали, то едва ли кто-то из них смог бы выявить стоящие внимания закономерности. Под влиянием тренда выживания мы обращаем внимание только на победителей.

Почему делающие ставки игроки должны «считать обезьян»?

Если мы не будем выдвигать априорные гипотезы перед применением метода слепого прочесывания данных в поисках обеспечивающих прибыль закономерностей, то вместо этого нам следует протестировать большое количество систем ставок для того, чтобы оценить частоту выявления статистической значимости. Во время дискуссии на эту тему, которая развернулась на моей странице в Твиттере, я написал следующее: «Давайте построим график распределение доходов на основании 10 000 выборок данных о сделанных вслепую ставках, выбранных в соответствии с 10 000 различных критериев, и посмотрим, как это будет выглядеть».

Мне не удалось найти 10 000 выборок подходящего размера, включающих данные о сделанных вслепую ставках (для этого потребуется множество данных), но 1686 выборок включали данные о 100 или более ставках. Каждая выборка включала данные о ставках на конкретный результат (победу хозяев, ничью или победу гостей) в рамках игр одной футбольной лиги, сделанных вслепую в течение одного сезона.

Сначала я вычислил истинные коэффициенты для всех вариантов исхода без учета коэффициента прибыльности Пиннакл, а затем рассчитал сумму теоретического дохода и t-критерий для каждой выборки (мой любимый метод измерения вероятности случайного увеличения дохода). Ниже приведен график распределения полученных величин. Положительные t-показатели указывают на прибыльные выборки, отрицательные – на убыточные; чем больше значение, тем меньше вероятность.

article-data-mining-2-in-article.jpg

Те из вас, кто знаком с нормальным распределением (колоколообразная кривая), признают его в качестве доказательства случайности. То есть данные об эффективности ставок, сделанных вслепую и включенных в эти выборки, в значительной степени соответствуют тому, что можно было бы ожидать, если бы все было подвержено исключительно влиянию случайности.

В целом, очевидно, что практически нет ничего, что имело бы систематический характер. Прибыль, полученная по ставкам на команды English League 2 в течение этих двух сезонов, скорее всего, объясняется счастливым стечением обстоятельств, о чем стало известно в результате непрофессионального анализа данных и выявления кажущихся прибыльными закономерностей, которые образовались по причине систематически иррациональных действий игрока или букмекера.

t-показатель для доходов по ставкам, сделанным с истинными коэффициентами за пять сезонов в целом, равен +2,4, и это означает, что вероятность того, что подобное произошло случайно, составляет 1 к 100 (p-значение). Статистически это имеет большое значение, и если бы нам довелось опубликовать научную статью на эту тему в отрыве от других обстоятельств, у нас была бы причина считать подобное реально возможным. Но проанализировав ситуацию в целом, мы почти наверняка знаем, что это не так. Все дело в слепой удаче.

На самом деле ставки, включенные в выборку за сезон 2007–2008 гг. English League 2, принесли даже большую прибыль. Размер теоретической прибыли по ставкам на 242 матча, данные о которых есть у меня и которые были сыграны с декабря по май, составил более 29 % (или 35 %, если ориентироваться на истинные коэффициенты без учета маржи). Вероятность такого результата составляет 1 к 1000 и объясняется случайным стечением обстоятельств. Этот показатель является лучшим для 1686 выборок. 

В целом ставки из 837 выборок (что составляет около половины), как и ожидалось, были прибыльными, если ориентироваться на истинные коэффициенты. Вполне ожидаемое, что в такой выборке выборок p-значение для подборки с лучшими показателями составит приблизительно 1 к 1686. Ожидалось, что р-значение для приблизительно 16 выборок (около 1 %) составит менее 1 к 100. Аналогичным образом ожидалось, что р-значение для приблизительно 168 выборок (около 10 %) составит менее 1 к 10. Любое отклонение, и мы могли бы справедливо задаться вопросом, а не является ли это результатом влияния случайности?

В действительности были получены значения 15 (0,9 %) и 158 (9,4 %) соответственно, что довольно точно отвечает ожиданиям. В приведенной ниже таблице сравниваются теоретические ожидания в отношении процентного количества выборок прибыльных ставок с р-значениями ниже определенного порогового значения (1 к 10 = 10 %, 1 к 5 = 20 % и так далее) и процентные показатели фактического количества таких случаев. Почти идеальная тождественность поражает.

По сути, график – это еще один способ сказать, что почти все, что мы видим, возникает случайно или под влиянием случайности. Правда, вероятность получения прибыли, оцениваемая как 1 к 1000, впечатляет, но это вполне ожидаемо, если у нас на выбор есть 1000 выборок, а потому это не может служить убедительным доказательством наличия какой-либо причинности. 

article-data-mining-1-in-article.jpg

Что могут узнать игроки об анализе и слепом прочесывании данных?

Случайный характер распределения прибыльности ставок на игры футбольного дивизиона в течение сезона, возможно, не вызывает удивления. Этот метод разработки стратегии ставок вряд ли может считаться самым изощренным. Но важный момент заключается в том, что если мы возьмемся за разработку системы ставок с помощью метода слепого прочесывания данных, пока не будут найдены обеспечивающие прибыль критерии, мы рискуем потерпеть неудачу в определении причинных объяснений тому, что обнаруживаем. 

Пока нам точно не известны причины, обуславливающие получение прибыли, это может оказаться полной чепухой. Корреляция без причинно-следственной связи просто регрессирует к среднему значению. Для игрока, делающего ставки на спорт, это означает потерю денег в долгосрочной перспективе.

Можно возразить, что нет ничего плохого в том, чтобы понадеяться на удачу в получении прибыли, ведь, в конце концов, именно она является ключевым элементом размещения ставок. Однако когда мы поступаем так, не стоит обманывать себя, полагая, что успех является следствием чего-либо еще.

 

 


pinnacle

 


https://www.pinnacle.com/ru/betting-articles
Joseph Buchdahl
William Hill Pусский
500-FDB
Букмекерская контора "ЛЕОН" - ставки на спорт
0percent soccer