Квантили

Если говорить просто, кванти́ль — это значение, ниже которого лежит определенная доля выборки. Доля выражается числом от 0 до 1 или же в процентах: от 0 до 100%.

Например, «80% (восьмидесятипроцентный) квантиль роста выпускников школы равен 175 см.» означает следующее: 80% выпускников имеют рост менее 175 см., а оставшиеся 20% — 175 см. и более.

Записать это можно так

    \[  q _{0.8}=175 см. \]

Если доля выражена в процентах, то квантиль также называют проценти́ль или перценти́ль или персенти́ль. А иногда, особенно в медицине, его называют просто центи́ль.

Кстати, интересно, что на основе квантилей медики определяют средний рост: не в смысле среднего значения, а в том смысле, в котором говорят «это человек среднего роста». Разумется, общего для всего мира понимания этих слов нет: народы мира различаются по росту, а у детей рост сильно зависит от возраста. Так вот, «средним ростом» считают рост от 0,25 до 0,75 квантиля («от 25% до 75% центиля», как говорят врачи). То есть средний рост имеет ровно половина людей (или половина детей одного возраста). Еще 25% имеют рост ниже среднего, а 25% — выше среднего.

Вообще говоря, деление выборки именно на 4 части по 25% применяется чаще всего. Квантили таких интервалов получили особое название — кварти́ли. Квартили 25%, 50% и 75% называют также «первым», «вторым» и «третьим» квартилями или «нижним», «средним» и «верхним» квартилями.

Второй квартиль, или 50% квантиль, является самостоятельной полезной статистической величиной: он показывает, что 50% наблюдений в выборке лежит ниже данного числа, а остальные — выше, то есть он делит выборку пополам. Его называют медиана.

Медиана — одно из основных средних значений величины наряду со средней арифметической. Часто эти величины близки друг к другу, но не всегда. Рассмотрите вот эти два случая с количеством яблок у разных людей.

Второй пример:

Как это реализовано в R

Для того, чтобы оценить основные характеристики выборки, есть чудесная функция summary()

a=c(1, 2, 3, 4, 10, 15, 25, 50) 
summary(a)

Она выведет минимум, первый квартиль, медиану, среднее, второй квартиль и максимум.

Квантили можно получить функцией quantile(). Первая строка в нижнем примере выведет все квартили, а вторая — квантиль 70%

quantile(a)
quantile(a, 0.7)

Можно задать сразу несколько долей для квантиля:

quantile(a, c(0.3, 0.7)) 

Медиану отдельно можно получить функцией median().

median(a)

А среднее арифметическое — функцией mean().

mean(a)

Скопируйте весь пример в R и выполните:

a=c(1, 2, 3, 4, 10, 15, 25, 50) 
summary(a)
quantile(a)
quantile(a, 0.7) 
quantile(a, c(0.3, 0.7)) 
median(a) 
mean(a) 

Читайте также: