Пользователь @dimok написал в Сегодня вчерашнее завтра:
В теннисе счёт по геймам не распределен по пуассону. По сетам - да, по геймам - нет.
Ну, вот зачем вы опять к простеньким моделькам обращаетесь? Конечно, там "чистый Пуассон" не работает. С этого я вчера и начал, что там не пуассоново распределение. Модель A-B, A+B примитивна и на неё нельзя сильно полагаться... Не только в теннисе, а вообще нигде. По крайней мере, не должна работать. Не знаю где работает, и считал бы это исключением, если есть таковое. И по сетам в теннисе тоже, по идее, не должна.
Из крупных проблем этого подхода, навскидку, существенны: невозможность ввести асимметрию если A=B, только нулевая корреляция, дисперсия по форе должна быть вточности равна дисперсии по тоталу. Последнее, наверно, самое важное. Т.е. если у нас есть некие A и B, то дисперсия от A-B (форы) будет равна дисперсии A+B (тотала), т.к. A и B независимы. И на мой взгляд, когда неопределённость в тотале равна неопределённости в форе, это какая-то глупость, либо примитивщина. Хорошо работать такая модель в принципе не должна (в общем случае, по крайней мере). И если мы попытаемся подогнать модельные A и B под букмекерские линии фор, получим грубые ошибки. В футболе - уж точно, в другие дисциплины я не углублялся. Но, опять же, я скорее удивлюсь что (если) такой примитивизм вообще где-то работает.
Точно так же не работает распределение по пуассону в американском футболе, чуть меньше в бейсболе. Происходит
это из-за конкретных правил подсчета очков конкретного спорта.
Вовсе не Пуассон виноват, а простенькие модельки. Сделайте какую-нибудь 10-параметрическую, и Пуассон будет способен вполне хорошо приблизиться к любой крайне причудливой линии. Также как синусы с косинусами вполне легко могут аппроксимировать любую гладкую кривую.
Так и здесь. Уже достаточно перейти от 2х параметров к 3м, чтобы разрешить поставленный вопрос. В модели X,Y,Z из прошлого поста мы можем установить равенство фор (X'-Y' = X"-Y"), равенство тоталов (X'+Y'+2*Z' = X"+Y"+2*Z"), при этом вполне может быть X'+Y' > X"+Y" (при Z'<Z"), а из X'+Y' > X"+Y" тут же получается что дисперсия форы разная: D(X'-Y') > D(X"-Y") (вспоминаем что X,Y независимы, дисперсия суммы равна дисперсии разницы, дисперсия пуассона равна его матожиданию), т.е. ширина линии фор будет шире для одного штриха, чем для двух, и вероятность слабого игрока победить с форой 0 будет выше в случае одного штриха. Из-за того, что там больше неопределённости. Неважно почему и из-за чего.
Но ещё раз, этой модели уже достаточно чтобы снять казус. Но я же не настаиваю что эта модель работает. Ни вообще, ни в данном случае. Она в самом деле на порядок лучше модели A,B, но тут вполне достаточно должно быть для понимания того, что никакого казуса нет, что он возникает из-за простеньких моделек.
Более того, первый пост на эту тему я начал вообще не с моделей, а с рассмотрения казуса по существу. А по существу мы должны видеть линию фор. Т.е. берём наши исходные данные, в тех координатах что я приводил на графике рисуем точки для форы 4.5 и 0 для одного матча, ставим аналогичные точки для другого матча, пытаемся провести через них какую-нибудь красивую линию фор и видим, что для одного матча она шире чем для другого. Вот и всё. Ничего тут не надо больше городить, никаких подробностей с сетами и геймами. Тем более непонятно как вообще можно говорить что общий подход, основанный на ширине линии фор неверен, особенно когда мы смотрим и видим что линии действительно разной ширины.
А чем уже вызвана эта разница в ширине в данном случае меня не интересует, т.к. матч ни я, ни вы детально не рассматривали, и гадать не в моих принципах. Может, из-за подачи. Может, из-за разницы в мотивации игроков. Может, погода разная и скользкое покрытие приводит к менее предсказуемым отскокам. Может, дополнительная неопределённость как-то связана с внутренней оценкой модели Пинки и/или прогрузом. Я не знаю. И не претендую на это знание. Мне всё равно чем оно вызвано - на суть обсуждаемого вопроса это никак не влияет. Если случается пожар, он может быть вызван курением в постели, но курение в постели - не единственный фактор, погущий вызвать пожар. Я обсуждаю пожар, а вы курение в постели. Вы вдаётесь в частности, где, мне кажется, это вовсе излишне. Но хуже всего то, что считаете обсуждение пожара как такового неверным, потому что было курение в постели.
Просто по факту есть две линии фор. Одна из них шире другой. Та, что шире, обеспечивает слабейшему больший шанс чистого выигрыша. Это всё. Этого достаточно для ответа на заданный казус.
Не понимаю вообще к чему ещё что-то тут обсуждать. Серьёзно.
Если же углубляться в причину почему одна линия В ДАННОМ СЛУЧАЕ шире другой, потребуется детальный анализ матчей. Со всеми их открытыми и скрытыми параметрами. Я не это не способен и не претендую. Это для меня сложно. У меня нет хорошей модели, которая была бы ничуть не хуже модели буков, а она потребуется. Без неё всё это не стоит букв. Более того, это не нужно, так как никто такой вопрос не ставил. Вопрос был про то, почему вообще такое возможно, а не почему именно в этом случае случилось так.
Геймы и сеты тут вообще ни при чём могут быть. Возможно, они имеют значение, возможно нет
Совершенно точно имеют значение
Вы проводили детальный анализ конкретных этих двух матчей???
Судя по вашим ответам, не проводили. Так что неправильно раздувать общее из частного.
Но даже если бы провели, ваш анализ может отличаться от анализа какого-то другого аналитика, и он (не исключено что) может сделать другой вывод: геймы и сеты для него всё ещё могут иметь какое-то значение, но главным фактором он может назвать что-то другое (погоду, форму игроков, прогрузы... почти любой параметр может привести к повышенной неопределённости). Пожар - он не всегда из-за курения в постели. И курение в постели не всегда приведёт к пожару. Хотя, конечно, полезно знать что такое весьма вероятно.