Как рассчитывать индекс Джини

Что такое кривая Лоренца, индекс Джини и как их рисовать и считать?

Начнем с кривой Лоренца.

Кривая Лоренца

Кривая Лоренца (Lorenz curve) — это график, демонстрирующий степень неравенства в распределении дохода или богатства в обществе. Ее придумал в 1905 году американский статистик Макс Лоренц.

Собственно говоря, эта кривая может отражать неравенство в распределении самых разных величин, но вначале она предназначалась именно для отражения экономического неравенства в обществе.

Кривая выглядит следующим образом:

По горизонтальной оси указана накопленная доля населения (причем население отсортировано от беднейших, то есть получающих наименьший доход, до богатейших), а по вертикальной — доля получаемого дохода.

Это лучше понять на примере:

Предположим, мы разбили все население страны на 4 группы, в каждой из которых по 25% населения. При этом первая, «бедная» группа получает 10% общего дохода страны, вторая, «ниже среднего» — 20%, третья, «выше среднего» — 30% и четвертая, «богатая» — 40%.

Группа Доля населения Доля от общего дохода
бедная 25% 10%
ниже среднего 25% 20%
выше среднего 25% 30%
богатая 25% 40%

Теперь переведем это в накопленные доли: 25% населения будут получать 10%, 50% населения (это «бедная» и «ниже среднего» группы) суммарно получают 10%+20%=30%, 75% населения («бедная», «ниже среднего» и «выше среднего» группы) получат 10%+20%+30%=60% всего дохода, и, разумеется, 100% населения получат 100% дохода.

Накопленная доля населения Накопленная доля общего дохода
25% 10%
50% 30%
75% 60%
100% 100%

Теперь можно построить график.

Обратите внимание, что кривая всегда исходит из точки (0%;0%) и приходит в точку (100%;100%), так как ясно, что 0% населения получают 0% дохода, а 100% населения получают 100% дохода.

Необязательно, чтобы группы были равными. Например, возьмем такие данные:

Доля населения Доля от общего дохода Накопленная доля населения Накопленная доля общего дохода
20% 10% 20% 10%
40% 30% 60% 40%
30% 30% 90% 70%
10% 30% 100% 100%

Обратите внимание, что группы нужно распределить от бедных к богатым. Если группы одинаковые, то они сортируются просто по столбцу «Доля от общего дохода» — от маленьких значений к большим (см. прошлый пример). Но у нас группы разного размера, поэтому нужно учитывать отношение второго столбца к первому (доли дохода к доле населения). Например, у нас вторая и третья группы получают одинаковую долю дохода. Но во второй группе населения больше, а значит, в расчете на одного человека они беднее. То же с третьей и четвертой группой. Вообще говоря, случай с разными группами редкий и встречается только в условных задачах. Но если будут такие условия, то нужно делить долю дохода на долю населения. Для наших групп получим:

10%/20%=1/2

30%/40%=3/4

30%/30%=1

30%/10%=3

Это значит, что в третьей группе население получает именно средний по стране доход на человека. В первой группе доход в два раза ниже среднего, во второй — 75% от среднего, а в четвертой — три средних дохода на человека. Вот в таком порядке их и нужно расположить для построения кривой Лоренца.

Получим такой график:

И, конечно, количество групп может быть любым. Желательно, чтобы их было побольше, тогда кривая будет построена по большему числу точек, станет более гладкой и точной.

Можно представить себе кривую абсолютно равного распределения: это будет просто диагональ, так как любые N% населения получают N% дохода:

И кривую абсолютного неравенства, когда все работают бесплатно, а один-единственный человек получает весь доход:

(Не думайте, что это совершенно умозрительная кривая: например, если у единственного человека в стране есть, скажем, говорящий еж, то кривая распределения говорящих ежей будет именно такой!)

А теперь:

Индекс Джини

К 1912 году итальянский статистик Коррадо Джини разработал алгебраическую интерпретацию кривой Лоренца: коэффициент, призванный указывать, насколько неравным является экономическое распределение.

Все очень просто. Коэффициент этот равен отношению площади фигуры между диагональю и кривой Лоренца:

К площади треугольника под диагональю (а она всегда равна 0,5):

Таким образом, при полном равенстве площадь первой фигуры равна нулю, и коэффициент тоже равен нулю. При полном неравенстве эта фигура займет весь треугольник и коэффициент будет равен единице.

Чем ниже коэффициент, тем более равным является распределение.

Как его считать?

Считать индекс Джини можно графическим  или алгебраическим способом. Посмотрим,  как это можно сделать.

Графический способ

Вертикальными линиями можно разделить фигуру над кривой Лоренца на два треугольника и несколько трапеций.

Площадь треугольника — половина основания на высоту, а трапеции — полусумма оснований на высоту (поверните голову на 90º, высоты расположены горизонтально, а основания —  вертикально). Высоты равны размерам групп, а основания легко посчитать. В нашем случае площадь фигуры будет такой:

фигура расчет площади площадь
треугольник a 10%*20%/2=0,1*0,2/2 0,01
трапеция b (10%+20%)/2*40%=0,3/2*0,4 0,06
трапеция c (20%+20%)/2*30%=0,4/2*0,3 0,06
треугольник d 20%*10%/2=0,2*0,1/2 0,01
Всего площадь фигуры (a+b+c+d) 0,14

Теперь разделим ее на площадь треугольника под диагональю (а он,  напоминаю,  всегда равен 0,5) и получим: 0,14/0,5=0,28

Таким образом, 0,28 или 28% и есть значение индекса Джини.

Другой графический способ: посчитать площадь фигур под кривой Лоренца, а затем вычесть их из площади треугольника под диагональю (0,5) и получить площадь над кривой. И ее уже разделить на 0,5.

Этот случай удобнее, когда цифры не такие круглые и ширина оснований трапеций над кривой неочевидна.

В нашем случае

фигура расчет площади площадь
треугольник a 10%*20%/2=0,1*0,2/2 0,01
трапеция b (10%+40%)/2*40%=0,5/2*0,4 0,1
трапеция c (40%+70%)/2*30%=1,1/2*0,3 0,165
трапеция d (70%+100)%/2*10%=1,7/2*0,1 0,085
Всего площадь фигуры (a+b+c+d) 0,36

Отнимаем 0,36 от 0,5 и получаем 0,14 — площадь фигуры над кривой

Далее, как и в первом способе, делим эту площадь на 0,5 (площадь треугольника под диагональю) и получаем: 0,14/0,5=0,28

Алгебраический способ

Наиболее проста в употреблении формула:

где:

x{_{i}}-доля i-ой группы в составе населения

y{_{i}}-доля i-ой группы в объеме доходов

cum y{_{i}}-кумулированная (накопленная) доля i-ой группы в составе населения

 

Составим таблицу на основе данных предыдущего примера:

Доля населения
(x{_{i}})
Доля от общего дохода
(y{_{i}})
Накопленная доля общего дохода
(cum y{_{i}})
x{_{i}}y{_{i}} x{_{i}}cum y{_{i}}
20% 10% 10% 0,02 0,02
40% 30% 40% 0,12 0,16
30% 30% 70% 0,09 0,21
10% 30% 100% 0,03 0,1
Итого: 0,26 0,49

Если вы не понимаете, как построена эта таблица, откройте спойлер:

Как построена эта таблица?

Первый и второй столбцы — это исходные данные, они такие же, как и в разделе «Графический способ».

Третий столбец получается из второго путем накопления значений из второго столбца: берем значение из ячейки слева и всех ячеек выше нее и складываем.

Четвертый столбец — произведение первого и второго.Чтобы не запутаться в процентах, переведите их в доли, например для первой строки: 20%*10%=0,2*0,1=0,02.

Пятый столбец — произведение первого и третьего.

Далее подсчитываем суммы по четвертому и пятому столбцу.

[свернуть]

Теперь можно подставить полученные суммы в формулу, которая приведена выше:

G=1-2*0,49+0,26=1-0,98+0,26=0,28

Мы получили ответ 0,28 — такой же, как и графическим методом.

Это самая простая в применении формула. Советую ее запомнить. А если вдруг хочется понять, как она выведена, откройте этот спойлер:

Как выведена эта формула?

В основе этой формулы лежит уже известная вам идея: чтобы посчитать площадь фигуры над кривой Лоренца:

можно сперва посчитать площадь фигуры под кривой Лоренца

а потом вычесть ее из площади диагонального треугольника, которая равна 0,5, и получим искомое. Саму же площадь под кривой будем считать по группам. Можно видеть, что над каждой группой образуется треугольник или четырехугольник — они выделены разными цветами.

Рассмотрим, например, вторую группу (зеленый четырехугольник).

Площадь четырехугольника ABDE равна площади прямоугольника ACDE минус площадь прямоугольного треугольника BCD. При этом площадь прямоугольника ACDE равна AE*DE, а площадь прямоугольного треугольника BCD равна CD*BC/2. Таким образом, площадь ABDE равна

AE*DE-CD*BC/2

При этом можно увидеть на графике, что ВС — доля дохода по группе (y), DE — накопленная доля  дохода по группе (cum y), а AE или CD — доля группы в численности населения (x). Тогда формула принимает вид

х*cum y — x*y/2

Можно видеть, что такая формула (прямоугольник минус прямоугольный треугольник) пригодна для всех цветных фигур, включая и левый розовый треугольник.

Тогда сумма всех фигур под кривой Лоренца будет равна

Эту сумму, как вы помните, нужно вычесть из 0,5, чтобы получить площадь фигуры над кривой

И наконец, разделив все это на площадь диагонального треугольника (то есть опять же на 0,5), получим формулу индекса Джини:

[свернуть]

Есть и другие формулы, расчет по одной из них приведен, например, вот тут. Мне кажется, что в ней проще запутаться, а получается ровно то же самое.

Чтобы проверить себя, решите задачу. Ответ и решение под спойлерами:

Задача

Предположим, что в некоторой стране N проживают три группы населения: бедные, средний класс и богатые. Группы равны по численности жителей, но различаются по уровню дохода: средний класс зарабатывает в два раза больше, чем бедные, а богатые зарабатывают в два раза больше, чем средний класс. Внутри групп доходы распределены равномерно.  Нарисуйте график кривой Лоренца и рассчитайте индекс Джини.

Ответ

G≈0,286

[свернуть]
Алгебраическое решение

Поскольку средний класс зарабатывает в два раза больше, чем бедные, а богатые — в два раза больше среднего класса, то всего они зарабатывают семь долей бедного класса, то есть, соответственно, 1/7, 2/7 и 4/7, что примерно равно 0,143, 0,286 и 0,571

Доля населения(x) Доля от общего дохода 
(y)
Накопленная доля общего дохода
(cum y)
x*y x*cum y
0,333 0,143 0,143 0,048 0,048
0,333 0,286 0,429 0,095 0,143
0,333 0,571 1,000 0,190 0,333
Итого: 0,333 0,524

G=1-2*0,524+0.333≈0,286

[свернуть]
Графическое решение

Удобней считать площадь под кривой, так как цифры в натуральных дробях.

Площадь треугольника a равна (1/7*1/3)/2=1/42

Площадь трапеции b равна (1/7+3/7)/2*1/3=2/7*1/3=2/21

Площадь трапеции c равна (3/7+1)/2*1/3=5/7*1/3=5/21

Общая сумма фигур 1/42+2/21+10/21=1/42+4/42+10/42=15/42

Чтобы получить фигуру над кривой Лоренца, нужно эту сумму вычесть из 0,5

0,5-15/42=21/42-15/42=6/42=3/21

Для того, чтобы получить значение индекса Джини, делим это число на 0,5

3/21 / 0,5 = 6/21 ≈0,286

[свернуть]