Автор: Пользователь скрыл имя, 15 Декабря 2010 в 18:27, контрольная работа
Кластерный анализ по многомерным статистическим методам.
V.
Кластерный анализ.
1. Проранжируем данные по всем показателям и исключим аномальные наблюдения: визуальный анализ диаграмм рассеяния показал, что таких наблюдений нет.
На
основе корреляционной матрицы проверим,
не присутствует ли мультиколлинеарность
между признаками.
| 1 | 0,570 | 0,738 | 0,257 | -0,053 |
| 0,570 | 1 | 0,250 | -0,115 | 0,144 |
| 0,738 | 0,250 | 1 | 0,528 | 0,027 |
| 0,257 | -0,115 | 0,528 | 1 | -0,339 |
| -0,053 | 0,144 | 0,027 | -0,339 | 1 |
Мультиколлинеарности
не наблюдается, поэтому кластеризация
будет проводиться по 60 наблюдениям.
Построим регрессию по всем переменным, используя метод пошагового исключения регрессоров в SPSS:
|
a Predictors: (Constant),
Численность населения за b Predictors: (Constant),
Численность населения за c Predictors: (Constant),
Численность населения за |
Coefficients(a)
| Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | ||
| B | Std. Error | Beta | ||||
| 1 | (Constant) | 4114,556 | 701,187 | 5,868 | ,000 | |
| Численность населения за чертой бедности (тыс.чел.) | 2,002 | ,207 | ,738 | 9,671 | ,000 | |
| 2 | (Constant) | 1213,893 | 727,511 | 1,669 | ,099 | |
| Численность населения за чертой бедности (тыс.чел.) | 1,723 | ,174 | ,636 | 9,919 | ,000 | |
| Численность безработных (тыс.чел.) | 16,813 | 2,622 | ,411 | 6,413 | ,000 | |
| 3 | (Constant) | 3881,367 | 1425,977 | 2,722 | ,008 | |
| Численность населения за чертой бедности (тыс.чел.) | 1,720 | ,170 | ,634 | 10,131 | ,000 | |
| Численность безработных (тыс.чел.) | 17,603 | 2,588 | ,430 | 6,802 | ,000 | |
| Общий коэффициент смертности (на 1000 чел.) | -342,041 | 158,511 | -,132 | -2,158 | ,034 | |
На
основе полученных данных можно сделать
вывод о том, что из трех построенных
моделей наилучшая – третья (основанный
на численности населения за чертой
бедности, численности безработных
и общем коэффициенте смертности),
т.к. эта модель имеет наибольшую
точность (R2 = 0,721) и наименьшую ошибку
(S = 4045,55). На основе анализа было также
выявлено, что на уровне значимости α =
0,05 уравнение регрессии значимо, а также
значимыми являются и все коэффициенты.
Окончательное уравнение регрессии имеет вид: Y = 3881,37 + 17,6X2 + 1,72X3 – 342,05X5,
2.
Проведем классификацию
объектов с использованием
иерархических кластер-процедур,
используя Евклидово
расстояние, а также
методы ближнего соседа,
дальнего соседа, центра
тяжести, средней связи,
Уорда (Warda).
Результаты классификации
представлены в таблице:
| Метод | ||
| 1 | Ближнего соседа | 3 кластера |
| 2 | Дальнего соседа | 4 кластера |
| 3 | Центра тяжести | 3 кластера |
| 4 | Средней связи | 3 кластера |
| 5 | Уорда | 4 кластера |
3.
Таким образом, исходную
совокупность объектов
целесообразно разбить
на 3 кластера.
4.
Классифицируем объекты
с помощью метода k –
средних.
В
предыдущем пункте мы выяснили, что
целесообразнее всего разбить совокупность
на 3 кластера. Классификация объектов
по кластерам представлена в таблице:
| Кластер | ||
| 1 | 2 | 3 |
| Albania | Australia | Bosnia and Herzegovina |
| Armenia | Austria | Costa Rica |
| Bahamas | Azerbaijan | Croatia |
| Bahrain | Belarus | Denmark |
| Barbados | Belgium | Egypt |
| Belize | Bulgaria | El Salvador |
| Bhutan | Cuba | Finland |
| Botswana | Czech Republic | Georgia |
| Cyprus | Greece | Ireland |
| Estonia | Hungary | Israel |
| Fiji | Netherlands | Kyrgyzstan |
| Jamaica | Portugal | Lebanon |
| Kuwait | Sweden | New Zealand |
| Latvia | Switzerland | Nicaragua |
| Lithuania | Syrian Arab Republic | Norway |
| Luxembourg | Tunisia | Paraguay |
| Maldives | Republic of Moldova | |
| Malta | Slovakia | |
| Mauritius | ||
| Mongolia | ||
| Montenegro | ||
| Panama | ||
| Slovenia | ||
| The former Yugoslav Republic of Macedonia | ||
| Trinidad and Tobago | ||
| Uruguay | ||
| 26 | 16 | 18 |
В таблице приведены
средние значения кластеров по показателям:
| Кластер | Численность населения, тыс.чел | Численность безработных, тыс.чел. | Численность населения за чертой бедности, тыс.чел. | Общий коэффициент
рождаемости
(на 1000 чел.) |
Общий коэффициент
смертности
(на 1000 чел.) |
| 1 | 1620,46 | 65,29 | 339,65 | 15,42 | 9,61 |
| 2 | 11304,94 | 318,21 | 1386,64 | 11,74 | 8,19 |
| 3 | 4981,76 | 174,57 | 1082,84 | 15,62 | 7,73 |
Как
видно из таблицы, первый кластер
характеризуется малыми численностью
населения, количеством безработных
и долей населения за чертой бедности,
при этом высокими коэффициентами смертности
и рождаемости. Этот кластер включает
в себя в основном небольшие развивающиеся
страны (однако, возможно, из-за маленькой
численности населения в этот же кластер
попали Эстония, Латвия, Литва, Мальта
и Люксембург).
Второй
кластер включает в себя страны с
большой численностью населения, количеством
безработных и долей населения
за чертой бедности, тогда как коэффициент
рождаемости у этого кластера
самый маленький, а коэффициент смертности
– средний по сравнению с остальными кластерами.
Этот кластер состоит в основном из развитых
стран (за исключением Азербайджана и
Кубы).
Третий
кластер можно назвать «
Построим графики, отражающие разбиение совокупности данных на кластеры:
5.
Построим типологические
регрессии по каждому
кластеру.
а)
1 кластер
Методом пошагового
исключения регрессоров:
Model
Summary
| Model | R | R Square | Adjusted R Square | Std. Error of the Estimate |
| 1 | ,796(a) | ,634 | ,619 | 694,04781 |
| 2 | ,850(b) | ,723 | ,699 | 617,28352 |
a Predictors: (Constant), X3
b Predictors: (Constant),
X3, X4
Coefficients(a)
| Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | ||
| B | Std. Error | Beta | ||||
| 1 | (Constant) | 777,257 | 188,710 | 4,119 | ,000 | |
| X3 | 2,483 | ,385 | ,796 | 6,451 | ,000 | |
| 2 | (Constant) | 1760,551 | 399,861 | 4,403 | ,000 | |
| X3 | 2,815 | ,364 | ,903 | 7,742 | ,000 | |
| X4 | -71,112 | 26,247 | -,316 | -2,709 | ,013 | |