Интеллектуальное большинство — начало, статистика

Статистика знает все. Все граждане обоего пола записаны в аккуратные толстые книги – книги загсов. Известно, сколько какой пищи съедает в год средний гражданин республики. Известно, сколько этот средний гражданин выпивает в среднем водки с примерным указанием потребляемой закуски. Известно, сколько в стране охотников, балерин, револьверных станков, собак всех пород, велосипедов, памятников, девушек, маяков и швейных машинок.

Только не все данные, получаемые статистиками, обрабатываются и публикуются. Многие – ввиду своей очевидной бесполезности (пресловутое влияние фаз Луны на менструальный цикл нильского крокодила), а многие – потому что есть вещи, знать которые простому люду не нужно. Не положено.

Самые важные сведения разведчики получают обычно не на поле боя и не в прокуренных портовых тавернах тропических стран, вполголоса общаясь с живописными хриплыми оборванцами, которые за пригоршню дукатов продают секреты местных владык и подробные планы дворцов. Основной источник знаний современной разведки – прочтение и анализ всевозможных, вполне доступных и открытых источников. Главное – правильное толкование полученной информации.

Вот этим я попробую заняться, доставляя неудовольствие и жопное горение дорогим читателям.

Дальнейший текст будет кратким изложением начал математической статистики, поэтому те, кто с данной дисциплиной хорошо знаком – может пропустить до следующего абзаца.

Как известно (а если не известно – съебали отсюда в школу быстро, решительно), людское население исчисляется миллиардами. В нашей многострадальной – больше сотни миллионов. Для таких чисел вполне применимы статистические методы. В данном случае рассмотрим закономерность нормального распределения.

Говоря просто – если есть большое количество наблюдений, то, как правило, результаты будут распределяться не абы как, а вполне определенным способом. Ученые люди называют этот способ нормальным или гауссовым распределением.

Вот график, показывающий, как именно распределяются результаты любой величины, измеренной много раз у разных подопытных:

гауссиана

Еще раз для непонятливых – сделаем много-много измерений у множества людей, зверей, коров, свиней, депутатов, дворников – кого пожелаете. Можно измерять неживые объекты – например, повзвешивать по одному пакеты с сахаром в ближайшем супермаркете, поизмерять недолив бензина на заправке, да что угодно. Если измерений достаточно много, то на графике результаты будут выглядеть именно так – «колоколом». Высота и ширина «колокола» может изменяться, но общий вид будет такой.

Почему это происходит? По той же причине, по какой дважды два – четыре, а число π составляет 3,1415927…

Говоря проще – так устроена Вселенная с математической точки зрения. Говоря еще проще – потому что.

Форма «колокола», конечно, может искажаться. Например, «верхушка» может сдвигаться в сторону:

кривая гауссиана

Верхушек может быть несколько:

верблюд

Как бы то ни было, искажение графика распределения – признак того, что, либо данные собирались неправильно (как у нас на выборах, например), либо на измеряемую величину что-то воздействует извне, либо, наконец, распределение в данном случае происходит по другому закону.

Так, есть распределение Парето, график которого выглядит примерно так:

парето

В такой закономерности распределяются, например, доходы населения –

доходы

Получается, чем выше доход, тем меньше людей им обладают.

Есть еще несколько подвидов закономерности распределения случайных величин, но они либо специализированы для измерения вполне определенных явлений, или используются математиками в служебных целях.

Как бы то ни было, в прикладных, приземлено-практических целях распределения в виде «колокола» вполне достаточно.

Что же означает такой график?

гауссиана

А обозначает он, что результаты измерений «группируются» вокруг некоего среднего, и средняя величина встречается чаще всего. Но чем больше отклоняется результат измерения от среднего, тем реже встречается. Очень маленькие или очень большие – в сравнении со средним – результаты бывают очень редко, а средних – хоть завались.

Но помимо среднего значения, нужно учитывать так называемое стандартное отклонение – то есть, насколько в среднем результаты измерений отклоняются от среднего значения.

Любопытно, что при нормальном распределении две трети значений будут находиться в пределах одного стандартного отклонения плюс-минус от среднего.

стандартное отклонение

А в пределах двух стандартных отклонений – уже 95% от общего количества.

стандартное отклонение2

Разумеется, эти числа относятся лишь к «идеальному» нормальному распределению. В реальности обычно форма графика распределения отличается от «колокола», и числа получаются другие.

Но это не имеет значения. В конце концов, я не провожу научную работу и не пишу учебник статистики. Моя цель другая – проиллюстрировать читателям с гуманитарным складом мышления (иными словами, недоумкам) кое-какие принципы, лежащие в основе мира. Эта и некоторые последующие статьи будут посвящены именно обсуждению и обсасыванию тривиальностей, очевидных любому мало-мальски мыслящему человеку.

Впрочем, я забегаю вперед.

Да, если читателю известны основы статистики и всё вышенаписанное вызывает тошноту и скучное отвращение – ничего страшного. Читай дальше – выводы из статистических примитивов будут, надеюсь, неожиданные.