Модель регрессии
Контрольная работа, 04 Декабря 2011, автор: пользователь скрыл имя
Описание работы
Сформулируем уравнение регрессии:
Уравнение регрессии будет иметь вид:
где – у - число побед
х1 – среднее число очков (ERA)
Работа содержит 1 файл
Имеются статистические данные по результатам игры разных команд.doc
— 261.50 Кб (Скачать)Имеются статистические данные по результатам игры разных команд.
| Команда | Лига | Победы | E.R.A. | Пропущенные
удары |
Пропущенные
пробежки |
Защита | Ошибки |
| Anaheim | 0 | 99 | 3,69 | 1345 | 509 | 54 | 87 |
| Baltimore | 0 | 67 | 4,46 | 1491 | 549 | 31 | 91 |
| Boston | 0 | 93 | 3,75 | 1339 | 430 | 51 | 104 |
| Chicago White Sox | 0 | 81 | 4,53 | 1422 | 528 | 35 | 97 |
| Cleveland | 0 | 74 | 4,91 | 1508 | 603 | 34 | 113 |
| Detroit | 0 | 55 | 4,93 | 1593 | 463 | 33 | 142 |
| Kansas City | 0 | 62 | 5,21 | 1587 | 572 | 30 | 130 |
| Minnesota | 0 | 94 | 4,12 | 1454 | 439 | 47 | 74 |
| New York Yankees | 0 | 103 | 3,87 | 1441 | 403 | 53 | 127 |
| Oakland | 0 | 103 | 3,68 | 1391 | 474 | 48 | 102 |
| Seattle | 0 | 93 | 4,07 | 1422 | 441 | 43 | 88 |
| Tampa Bay | 0 | 55 | 5,29 | 1567 | 620 | 25 | 126 |
| Texas | 0 | 72 | 5,15 | 1528 | 669 | 33 | 99 |
| Toronto | 0 | 78 | 4,8 | 1504 | 590 | 41 | 107 |
| Arizona | 1 | 98 | 3,92 | 1361 | 421 | 40 | 89 |
| Atlanta | 1 | 101 | 3,13 | 1302 | 554 | 57 | 114 |
| Chicago Cubs | 1 | 67 | 4,29 | 1373 | 606 | 23 | 114 |
| Cincinnati | 1 | 78 | 4,27 | 1502 | 550 | 42 | 120 |
| Colorado | 1 | 73 | 5,2 | 1554 | 582 | 43 | 112 |
| Florida | 1 | 79 | 4,36 | 1449 | 631 | 36 | 106 |
| Houston | 1 | 84 | 4 | 1423 | 546 | 43 | 83 |
| Los Angeles | 1 | 92 | 3,69 | 1311 | 555 | 56 | 90 |
| Milwaukee | 1 | 56 | 4,73 | 1468 | 666 | 32 | 103 |
| Montreal | 1 | 83 | 3,97 | 1475 | 508 | 39 | 139 |
| New York Mets | 1 | 75 | 3,89 | 1408 | 543 | 36 | 144 |
| Philadelphia | 1 | 80 | 4,17 | 1381 | 570 | 47 | 88 |
| Pittsburgh | 1 | 72 | 4,23 | 1447 | 572 | 47 | 115 |
| St. Louis | 1 | 97 | 3,7 | 1355 | 547 | 42 | 103 |
| San Diego | 1 | 66 | 4,62 | 1522 | 582 | 40 | 128 |
| San Francisco | 1 | 95 | 3,54 | 1349 | 523 | 43 | 90 |
- Сформулируем уравнение регрессии:
Уравнение
регрессии будет иметь вид:
где – у - число побед
х1 – среднее число очков (ERA)
х2 –число очков, набранных в 2002 году.
Число объясняющих переменных k=2.
Будем предполагать, что модель регрессии является классической, то есть для нее выполняются условия Гаусса-Маркова.
Будем предполагать, что
- х1,…,хк – детерминированные переменные;
- ранг матрицы Х равен "к+1" – среди признаков нет линейно зависимых;
- , - нет систематических ошибок в измерении у;
- , - гомоскедастичность регрессионных остатков (равноточные измерения);
- , , - условие некоррелированных регрессионных остатков.
Если модель классическая, то оценки полученные методом наименьших квадратов (МНК) будут обладать свойствами несмещенности, состоятельности и эффективности.
МНК - оценки для вектора неизвестных коэффициентов:
- Смысл наклонов отклика в этой модели :
При увеличении показателя ЕRA на 1 единицу, число побед снижается в среднем на 17 за сезон, при увеличении числа набранных очков на 1 единицу число побед увеличивается в среднем на 0,057 (здесь удобнее будет сказать, что при увеличении очков на 100 единиц, число побед увеличивается в среднем на 57).
- Среднее количество побед у команды набравшей 750 очков , при ERA равным 4,5.
=76 побед.
- Выполним анализ остатков и адекватность модели.
На рисунках 1-2 представлены графики остатков упорядоченные по переменной х1 и х2.
- остатки
Модельные значения и значения остатков приведены в приложении 2.
Рисунок 1 - График
остатков, упорядоченных по переменной
х1
Рисунок 2 - График
остатков, упорядоченных по переменной
х2
По графику остатков, видно, что предположения о постоянстве дисперсии и остатков и их некоррелированности не нарушаются.
Проверка
гипотезы об адекватности
линейной модели выборочным
данным
Для
проверки значимости построенного уравнения
регрессии выдвигается гипотеза Н0:
линейная модель множественной регрессии
не адекватна выборочным данным, что формально
можно сформулировать так
Н0:
β1=β2=…=βк=0
Альтернативная
гипотеза Н1: ЛММР адекватна выборочным
данным или формально Н1:
.
Для проверки гипотезы Н0 используем статистику:
,
которая в случае справедливости Н0 имеет распределение Фишера – Снедекорра с числом степеней свободы .
=1696,498
=4615,668
=6312,167
Далее проверяем гипотезу Fнабл =36,72и Fкр=3,35 – нулевая гипотеза отвергается, модель адекватна.
5.
Чтобы узнать существует ли статистически
значимая зависимость между количеством
побед и двумя объясняющими переменными,
вычислим множественный коэффициент корреляции
и проверим его значимость на уровне 0,05.
Коэффициент множественной корреляции
можно найти как корень квадратный из
коэффициента детерминации. Коэффициент
детерминации получается из тех соображений,
что общая вариация (дисперсия) результативного
признака складывается из вариации функции
регрессии, обусловленной варьированием
значений объясняющих переменных
, (факторной дисперсии) и из вариации
случайной величины относительно функции
регрессии (остаточной
дисперсии).
=0,855
(множественный коэффициент корреляции можно рассчитать и по формуле единица минус отношение определителя матрицы парных коэффициентов корреляции к соответствующему алгебраическому дополнению этой матрицы ).
Проверим значимость коэффициента
Пусть рассматривается оценка коэффициента детерминации , где "l" – указывает количество факторных признаков, связь с которыми мы желаем исследовать.
Выдвигаем ненулевую гипотезу Н0: (коэффициент множественной корреляции незначим - факторные признаки не оказывают значимого влияния).
При альтернативной гипотезе Н1: (коэффициент значим).
Для проверки гипотезы рассмотрим статистику:
которая в случае справедливости Н0 имеет распределение Фишера – Снедекора с числом степеней свободы .
Эту статистику
мы уже рассчитали (при проверке
адекватности модели данным) и показали,
что нулевая гипотеза отвергается,
то есть множественный коэффициент корреляции
значим и существует тесная зависимость
между числом побед и ERA и количеством
очков на уровне значимости 0,05.
- P- значение в пункте 5 при проверке значимости уравнения регрессии=0,00000002 – это вероятность принятия нулевой гипотезы, если она меньше чем 0,05, то гипотеза отвергается.
Смысл
коэффициента множественной смешанной
корреляции, заключается в том, что
он показывает связь меду у и х1
и х2.Если его возвести в квадрат,
то получим коэффициент
Подправленная на несмещенность оценка (скоррекитированный) коэффициента детерминации имеет вид
Проверка
гипотез о значимости
коэффициента.
В случае если нулевая гипотеза о незначимости уравнения регрессии отвергнута, проверяем гипотезы о значимости коэффициентов уравнения регрессии. Выдвигаются гипотезы вида
Н0: коэффициент βj незначимо отличен от нуля (или формально βj=0);
альтернативная гипотеза Н1: коэффициент βj – значимо отличен от нуля (формально βj 0).
Для проверки таких гипотез Н0 строятся статистики , которые в случае справедливости Н0, имеют распределение Стьюдента с степенями свободы. Далее, либо сравниваем tнабл с tкр(α)
Для свободного параметра
t=113,61/27,65=4,108
t=17,82/3,042=5,85
t=0,057/0,024=2,33
t- критическое найдем по таблице распределения Стьюдента, для числа степеней свободы 27 и уровня значимости 0,05.
- P- значение в пункте 9 при проверке значимости свободного параметра регрессии=0,00032 – это вероятность принятия нулевой гипотезы, если она меньше чем 0,05, то гипотеза отвергается. при проверке значимости свободного параметра регрессии при х1=0,0000031 при проверке значимости параметра регрессии при х2=0,0271
Для коэффициента
уравнения регрессии при
имеющую распределение
Стьюдента с
степенями свободы.
, где - табличное значение ( )
-24,069
-11,58
Вычислим коэффициенты частной множественной корреляции и поясним их смысл.
Оценка для частных коэффициентов корреляции
Где в числителе и знаменателе стоят алгебраические дополнения матрицы парных коэффициентов корреляции.
Рассчитаем матрицу парных коэффициентов корреляции
| Победы | E.R.A. | Очки | |
| Победы | 1 | -0,82272 | 0,624037 |
| E.R.A. | -0,82272 | 1 | -0,51569 |
| Очки | 0,624037 | -0,51569 | 1 |