Анализ выживаемости в системе "Statistica"

Автор: Пользователь скрыл имя, 06 Апреля 2011 в 12:31, курсовая работа

Описание работы

C помощью ППП "Statistica" показан анализ пациентов и клиник в которых они проходили лечение сердечно-сосудистых заболеваний.

Содержание

Основные проблемы анализа выживаемости……………………………..……3
I. Таблицы времён жизни …………… …………… …………… …………… ..4
1.1 Исходные данные………………………………………………………….….4
1.2 Построение таблиц времён жизни……………………………………...……6
1.3 Аппроксимация эмпирических данных теоретическим распределением……………………………………………………………………11
II. Оценки Каплана-Майера…………………………………………………..…17
III. Сравнение выживаемости в группах…………………………………….…21
Список литературы………………………………………………………………23

Работа содержит 1 файл

Курсовая НА ПЕЧАТЬ.doc

— 896.50 Кб (Скачать)

МИНИСТЕРСТВО  НАУКИ И ОБРАЗОВАНИЯ РФ 

МОСКОВСКИЙ  ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ, СТАТИСТИКИ И ИНФОРМАТИКИ 

Кафедра математической статистики и эконометрики

 
 
 
 
 
 
 
 
 

Курсовая  работа:

«Анализ выживаемости в системе  «Statistica» 
 
 
 
 
 
 
 
 
 

                                                                                                                                 Исполнитель:

                                                                                                            Егоров Т.П.

 гр. ДЭС-401 

                                                                                                     Преподаватель:

                                                                                                             Иванова Л.В. 
 
 
 
 
 
 

Москва, 2008  

Содержание 

Основные проблемы анализа выживаемости……………………………..……3

I. Таблицы времён жизни …………… …………… …………… …………… ..4

1.1 Исходные данные………………………………………………………….….4

1.2 Построение  таблиц времён жизни……………………………………...……6

   1.3 Аппроксимация эмпирических данных теоретическим распределением……………………………………………………………………11

II. Оценки Каплана-Майера…………………………………………………..…17

III. Сравнение выживаемости в группах…………………………………….…21

Список литературы………………………………………………………………23 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Основные  проблемы анализа  выживаемости

    Методы  анализа выживаемости (Survival Analisis) первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали шароко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах (анализ надежности и время отказов)

     Одной из важных характеристик, описывающих  течение болезни, является продолжительность  жизни пациентов с момента  поступления в клинику или  после проведения операции. В принципе, для описания средних времен жизни и сравнения новой методики со старой можно использовать стандартные статистические методы. Однако рассматриваемые данные имеют специфику, которую следует учитывать. Дело в том, что в медицинской практике мы часто имеем дело с неполными данными.

     Это связано с тем, что трудно наблюдать  все время жизни пациента после  операции, так как пациент мог  быть выписан или переведен в  другую клинику и связь с ним  была утеряна. При этом мы располагаем  не полной информацией о времени  жизни пациента, а лишь частичной. Естественное желание исследователя использовать все данные, т. е. анализировать как полные времена жизни, так и неполные, и не терять с трудом собранную информацию. Для этого и предназначены методы анализа выживаемости, которые позволяют изучать неполные или цензурированные данные. Наблюдения, которые содержат неполную информацию, называются неполными или цензурированными (например, «пациент А был жив по крайней мере 4 месяца после того, как был переведен в другую клинику и контакт с ним был потерян»). Это пример цензурированного наблюдения: информация о том, что пациент был жив 4 месяца, важна и может быть использована для построения оценок. Наблюдения от момента операции до летального исхода называется полными.

     Итак, в анализе выживаемости различают полные (по-английски complete) и неполные, или цензурированные, наблюдения (по-английски censored). Конечно, можно было использовать только полные времена жизни, но тогда мы имели бы в своем распоряжении очень мало наблюдений и соответственно неточные оценки. Использование, наряду с полными наблюдениями, неполных или цензурированных наблюдений является главной особенностью методов анализа выживаемости.  
 
 
 
 
 
 
 
 
 
 
 
 
 

    I.Таблицы времён жизни

    1.1. Исходные данные 

    Таблица 1

    Данные  о пациентах, перенесших операцию на сердце 

  MONTH_1 DAY_1 YEAR_1 MONTH_2 DAY_2 YEAR_2 CENSORED AGE ANTIGEN MISMATCH HOSPITAL
1 JANUARY 6 68 JANUARY 21 68 CENSORED 54 0 1,11 HILLVIEW
2 MAY 2 68 MAY 5 68 CENSORED 40 0 1,66 HILLVIEW
3 AUGUST 31 68 MAY 17 70 COMPLETE 51 0 1,32 HILLVIEW
4 SEPTEMBR 9 68 JANUARY 14 69 CENSORED 48 0 0,36 ST_AND
5 OCTOBER 5 68 DECEMBER 8 68 COMPLETE 54 0 1,89 ST_AND
6 OCTOBER 26 68 JULY 7 72 COMPLETE 54 0 0,87 BINER
7 NOVEMBER 22 68 AUGUST 29 69 COMPLETE 49 0 1,12 BINER
8 NOVEMBER 20 68 DECEMBER 13 68 CENSORED 56 0 2,05 HILLVIEW
9 FEBRUARY 15 69 FEBRUARY 25 69 COMPLETE 55 1 2,76 HILLVIEW
10 FEBRUARY 8 69 NOVEMBER 29 71 COMPLETE 43 0 1,13 BINER
11 MARCH 29 69 MAY 7 69 COMPLETE 42 0 1,38 HILLVIEW
12 APRIL 13 69 APRIL 13 71 COMPLETE 58 0 0,96 ST_AND
13 JULY 16 69 NOVEMBER 29 69 COMPLETE 52 1 1,62 ST_AND
14 MAY 22 69 APRIL 1 74 CENSORED 33 0 1,06 ST_AND
15 AUGUST 16 69 AUGUST 17 69 CENSORED 54 0 0,47 BINER
16 SEPTEMBR 3 69 DECEMBER 18 71 COMPLETE 44 0 1,58 BINER
17 SEPTEMBR 14 69 NOVEMBER 13 69 COMPLETE 64 0 0,69 HILLVIEW
18 JANUARY 16 70 APRIL 1 74 CENSORED 49 0 0,91 BINER
19 JANUARY 3 70 APRIL 1 74 CENSORED 40 0 0,38 HILLVIEW
20 MAY 19 70 JULY 12 70 COMPLETE 49 0 2,09 HILLVIEW
21 MAY 13 70 JUNE 29 70 COMPLETE 61 1 0,87 ST_AND
22 MAY 9 70 MAY 9 70 CENSORED 41 0 0,87 ST_AND
23 JULY 4 70 APRIL 1 74 CENSORED 48 0 0,75 BINER
24 OCTOBER 15 70 APRIL 1 74 CENSORED 45 0 0,98 BINER
25 JANUARY 5 71 FEBRUARY 18 71 CENSORED 36 0 0,00 ST_AND
26 JANUARY 11 71 OCTOBER 1 73 COMPLETE 48 0 0,81 BINER
27 FEBRUARY 22 71 APRIL 14 71 COMPLETE 47 0 1,38 HILLVIEW
28 MARCH 22 71 APRIL 1 74 CENSORED 36 0 1,35 HILLVIEW
29 APRIL 24 71 JANUARY 2 72 COMPLETE 48 1 1,08 HILLVIEW
30 AUGUST 18 71 OCTOBER 8 71 COMPLETE 52 0 1,51 ST_AND
31 NOVEMBER 8 71 APRIL 1 74 CENSORED 38 0 0,98 ST_AND
32 OCTOBER 13 71 AUGUST 30 72 COMPLETE 48 1 1,82 ST_AND
33 DECEMBER 15 71 APRIL 1 74 CENSORED 41 0 0,19 BINER
34 NOVEMBER 20 71 JANUARY 9 72 COMPLETE 49 0 0,66 BINER
35 JANUARY 7 72 APRIL 1 74 CENSORED 32 1 1,93 BINER
36 MARCH 4 72 SEPTEMBR 6 73 CENSORED 48 0 0,12 HILLVIEW
37 MARCH 17 72 MAY 22 72 COMPLETE 51 0 1,12 HILLVIEW
38 MAY 18 72 JANUARY 1 73 CENSORED 19 0 1,02 HILLVIEW
39 APRIL 9 72 JUNE 13 72 COMPLETE 45 1 1,68 ST_AND
40 JUNE 10 72 APRIL 1 74 CENSORED 48 0 1,20 ST_AND
41 JUNE 21 72 JULY 16 72 COMPLETE 53 1 1,68 ST_AND
42 AUGUST 20 72 APRIL 1 74 CENSORED 47 0 0,97 BINER
43 AUGUST 17 72 APRIL 1 74 CENSORED 26 1 1,46 BINER
44 OCTOBER 7 72 DECEMBER 9 72 COMPLETE 56 1 2,16 BINER
45 SEPTEMBR 22 72 OCTOBER 4 72 CENSORED 29 0 0,61 HILLVIEW
46 NOVEMBER 18 72 APRIL 1 74 CENSORED 52 1 1,70 HILLVIEW
47 MAY 31 73 APRIL 1 74 CENSORED 49 0 0,81 HILLVIEW
48 FEBRUARY 4 73 MARCH 5 73 COMPLETE 54 0 1,08 ST_AND
49 DECEMBER 31 72 APRIL 1 74 CENSORED 46 0 1,41 ST_AND
50 JANUARY 17 73 APRIL 1 74 CENSORED 52 1 1,94 ST_AND
51 FEBRUARY 24 73 APRIL 13 73 CENSORED 53 0 3,05 BINER
52 MARCH 7 73 DECEMBER 29 73 COMPLETE 42 0 0,60 BINER
53 MARCH 8 73 APRIL 1 74 CENSORED 48 1 1,44 BINER
54 MAY 19 73 JULY 8 73 COMPLETE 46 0 2,25 HILLVIEW
55 APRIL 27 73 APRIL 1 74 CENSORED 54 0 0,68 HILLVIEW
56 AUGUST 21 73 OCTOBER 28 73 COMPLETE 51 1 1,33 HILLVIEW
57 SEPTEMBR 12 73 OCTOBER 8 73 CENSORED 52 1 0,82 ST_AND
58 MARCH 2 74 APRIL 1 74 CENSORED 45 0 0,16 ST_AND
59 AUGUST 7 73 APRIL 1 74 CENSORED 47 0 0,33 ST_AND
60 SEPTEMBR 17 73 FEBRUARY 25 74 COMPLETE 43 0 1,20 BINER
61 OCTOBER 16 73 APRIL 1 74 CENSORED 26 0 0,46 BINER
62 DECEMBER 12 73 APRIL 1 74 CENSORED 23 1 1,78 BINER
63 MARCH 19 74 APRIL 1 74 CENSORED 28 1 0,77 HILLVIEW
64 MARCH 31 74 APRIL 1 74 CENSORED 35 0 0,67 ST_AND
 
 

    В строках располагаются данные о  каждом из прооперированных пациентов. В столбцах указаны даты начала наблюдения за пациентом (дата поступления в клинику/дата операции) – первые три переменные, даты окончания наблюдения (пациент выписался, и связь с ним была потеряна или умер) – последние три переменные. Программа интерпретирует первую и четвёртую переменные как месяцы, вторую и пятую – как дни, а третью и шестую – как год. Имеется также возможность сразу ввести времена жизни (что соответствует одной переменной в файле данных, вместо шести указанных) или даты в другом формате (соответственно, две переменные: дата начала и дата окончания наблюдения).

    Так, например, из пятой строки видно, что  пациенту под номером 4 была сделана операция 9 сентября 1968, а выписался он 14 января 1969 года. Так как далее связь с этим пациентом была утеряна, то имеем неполное (цензурированное) наблюдение. Ему соответствует значение стоящей в седьмом столбце переменной – censored (цензурирован).

    Следующая за ней переменная в столбце 8 (AGE) характеризует возраст пациентов.

    Переменные  в 9-м и 10-м столбцах содержат специальную медицинскую информацию об особенностях операции (ANTIGEN, MISMATCH).

    Значение  переменной в столбце 11 указывает на название клиники, где была сделана операция.

    Файл  исходных данных содержит 64 наблюдения, т.е. данные о 64 пациентах трех клиник. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

    1.2. Построение таблиц  времени жизни 

    На  основе данных таблиц времен жизни (таблиц смертности - в терминологии страхования) определяется ряд элементарных статистик, необходимых для описания времени жизни пациентов (клиентов - в страховании).

    В некоторых случаях времена отказов (failure time) представляются в виде сгруппированных данных. Это объясняется тем, что во многих реальных исследованиях сложно оценить время отказов с достаточной точностью, однако можно определить, сколько отказов произошло или сколько наблюдений было цензурировано в течение определенного интервала времени. Такого рода данные называются таблицами времен жизни.

    Таблицу времен жизни подобного вида можно  рассматривать как «расширенную»  таблицу частот. Область возможных  времен наступления критических  событий (смертей или отказов, в  зависимости от предмета исследования) разбивается на определенное число интервалов. Для каждого интервала определяются количество и доля индивидов, которые были живы в начале рассматриваемого временного периода и тех, которые выбыли из наблюдения на данном интервале, а также тех, связь с которыми была утеряна по той или иной причине, т.е. цензурированные. Таким образом, отличие от обычной таблицы частот заключается в том, что она строится по полным наблюдениям, а в таблице жизни учитываются как полные, так и неполные (цензурированные) наблюдения.

    Количество  интервалов на временной оси пользователь может задать самостоятельно. В приведенной ниже таблице это число равно 12 (с учетом того, что стандартный период наблюдения за пациентом составляет обычно 1 год).

    Применительно к страхованию, область возможных времен наступления страховых случаев разбивается на некоторое число интервалов, а затем для каждого из них вычисляются доли объектов, у которых на данном интервале наступил страховой случай.

    В модуле «Анализ выживаемости» предусмотрена возможность, обрабатывать как непосредственно файл первичных данных, так и сгруппированные данные. Ниже приведена таблица времен жизни, полученная в результате обработки исходной информации: 
 

    Таблица 2

Таблица времен жизни 

 
 

    Обратимся к интерпретации переменных, составляющих содержание полученной электронной таблицы времен жизни (по столбцам):

  • Номер интервала (Interval/Intno=Interval Number) для сгруппированных данных.
  • Нижняя граница интервала (Interval Start)
  • Середина интервала (Mid Point)
  • Ширина интервала (Interval Width)
  • Число в начале (Number Entering)

    Число пациентов, которые были живы в начале рассматриваемого временного интервала.

  • Число изъятых (Number Withdrwn) объектов

    Число пациентов, связь с которыми была утеряна (т.е. изъятых из дальнейшего  рассмотрения после того, как они  выписались/перевелись из данной клиники). Эти объекты имеют метку цензурированные (censored) в файле исходных данных.

  • Число изучаемых (Number Exposed) объектов

    Число пациентов, которые были живы в начале рассматриваемого временного интервала, за вычетом половины от числа изъятых (цензурированных).

  • Число умерших (Number Dying)

    Число пациентов, умерших на данном отрезке  времени (интервалe). Умершие объекты имеют метку complete.

  • Доля умерших (Proportn Dead)

    Отношение числа объектов, умерших в соответствующем  интервале, к общему числу объектов, попавших в этот интервал. 

Информация о работе Анализ выживаемости в системе "Statistica"