Парадоксальный закон Бенфорда
Возьмём таблицу численности населения стран мира и заменим каждое число его первой цифрой. Естественно предположить, что каждая из девяти цифр в получившемся массиве должна встречаться одинаково часто. Однако это не так!
Единица встречается очень часто, и на её долю приходится примерно 30%, на двойку и тройку вместе — ещё примерно 30%, а на остальные шесть цифр — только 40%. Похожее распределение получается и для площадей стран и ВВП. Если эти три массива совершенно разнородных данных слить в один, статистические разбросы уменьшатся, и видно, что частота появления первых цифр от 1 к 9 монотонно убывает. Эту закономерность для больших массивов самых разнообразных данных обнаружил в 1930-е годы американский инженер Фрэнк Бенфорд.
Рассмотрим теперь чисто математический объект — последовательные степени двойки, и точно так же заменим их первыми цифрами: 1, 2, 4, 8, 1, 3, 6, 1, ... И снова получается примерно такое же распределение, как и для сводного массива географических данных! Но для степеней двойки предельное распределение по первым цифрам можно точно рассчитать. На десятичной логарифмической шкале степени двойки идут с равным иррациональным интервалом lg2 и никогда не совпадают с целыми числами, соответствующими степеням 10.
Первые цифры всегда попадают в интервал от 0 до 1, поэтому можно представить, что мы наматываем числовую прямую на окружность единичной длины. Логарифмы степеней двойки равномерно распределяются по этой окружности, так что вероятность появления определённой цифры пропорциональна длине соответствующего отрезка на логарифмической шкале: для единицы вероятность равна lg2 – lg1 = lg2 ≈ 0,301; для двойки lg3 – lg2 = lg(3/2) ≈ 0,176; для девятки lg10 – lg9 = lg(10/9) ≈ 0,046 — почти в 7 раз меньше, чем для единицы. Заметим, что в этой модели вероятность появления двоек и троек вместе равна lg4 – lg2 = lg2 — в точности такая же, как для единицы! Именно такое логарифмическое распределение вероятности появления первых цифр принято называть законом Бенфорда.
Но при чём же здесь массивы географических и других далёких от чистой математики данных? За счёт чего и для них выполняется распределение Бенфорда? Можно пытаться строить разнообразные частные модели, и мы обсуждаем в ролике соображения, связанные с масштабной инвариантностью для распределения рек по их длине. Однако гораздо интереснее оказывается собственно статистический подход: распределим площади стран в порядке убывания, как в нашем математическом ролике «Распределение Парето», и построим график логарифма площади.
Получается плавная линия, соответствующая семи десятичным разрядам. В каждом разряде кривую можно приближённо заменить отрезком прямой, что соответствует равномерному распределению логарифмов, то есть закону Бенфорда! Значит и в целом распределение будет близко к распределению Бенфорда.
Заметим, что график получился плавным только потому, что в каждый разряд попало много точек, и таких разрядов было много, — именно по этому признаку можно ожидать от конкретного массива данных, что для него будет приближённо выполняться закон Бенфорда.
Остаётся добавить, что распределение Бенфорда по первым двум цифрам получило применение в финансовом аудите для выявления мошенников. Смотрите наш новый ролик «Парадоксальный закон Бенфорда», и не забывайте ставить лайки!
логарифмическая шкала
физика