Методы теории вероятностей и математической статистики в задачах исследования стилистических особенностей текстов

Автор: Пользователь скрыл имя, 18 Декабря 2010 в 04:06, реферат

Описание работы

Цель работы: формирование у студентов навыков практической работы с современными информационными системами и технологиями в одной из наиболее динамично развивающихся областей современной лингвистики, где математика и информатика – два неотъемлемых инструмента исследователя.

В данной работе мною будет проведён лингвистический анализ трёх произведений Толстого.

Содержание

Введение 3

Глава 1 4

Глава 2 12

Таблица взаимной энтропии 13

Глава3 15

Случайная величина 15

Закон распределения случайной величины 16

Вариационный ряд 18

Гистограмма распределения вероятности 18

Математическое ожидание 20

Дисперсия случайной величины 21

Энтропия 21

Взаимная энтропия 23

Вывод 24

Список используемой литературы 25

Работа содержит 1 файл

р.doc

— 957.50 Кб (Скачать)

о функция распределения FX этой случайной величины кусочно-постоянна  и может быть записана как: . 

Эта функция  непрерывна в любой точке , 

     Законом распределения вероятностей дискретной случайной величины называется таблица соответствия между возможными значениями этой величины и их вероятностями. Такую таблицу называют рядом распределения дискретной случайной величины.

     Поскольку в одном испытании случайная  величина X может принять одно и только одно значение xk, то события X=x1, Х=х2, ... , Х=хn образуют полную группу событий. Следовательно, сумма вероятностей этих событий равна единице, т. е.

     Свойства

     1)FX непрерывна справа

     2) FX не убывает на всей числовой прямой.

     

     .

     .

     3) Распределение случайной величины  однозначно определяет функцию распределения.

     Верно и обратное: если функция F(x) удовлетворяет  четырём перечисленным выше свойствам, то существует вероятностное пространство и определённая на нём случайная  величина, такая что F(x) является её функцией распределения.

     4) По определению непрерывности справа, функция FX имеет правый предел FX(x + ) в любой точке , и он совпадает со значением функции FX(x) в этой точке.

     В силу неубывания, функция FX также имеет  и левый предел FX(x − ) в любой  точке  , который может не совпадать со значением функции. Таким образом, функция FX либо непрерывна в точке, либо имеет в ней разрыв первого рода.

  1. Вариационный ряд

           Вариационный ряд  — упорядоченная по величине последовательность выборочных значений наблюдаемой случайной  величины

            

           равные между собой элементы выборки нумеруются в произвольном порядке; элементы вариационного ряда называются порядковыми (ранговыми) статистиками; число λm = m / n называется рангом порядковой статистики 

           Вариационный ряд  используется для построения эмпирической функции распределения. Если элементы вариационного ряда независимы и имеют общую плотность распределения f, то совместная плотность распределения элементов вариационного ряда имеет вид  

  1. Гистограмма распределения вероятности

          Гистогра́мма (от др.-греч. στός — столб + γράμμα — черта, буква, написание) — способ графического представления табличных данных.

          Количественные соотношения  некоторого показателя представлены в  виде прямоугольников, площади которых  пропорциональны. Чаще всего для  удобства восприятия ширину прямоугольников берут одинаковую, при этом их высота определяет соотношения отображаемого параметра.

          Таким образом, гистограмма  представляет собой графическое  изображение зависимости частоты  попадания элементов выборки  от соответствующего интервала группировки.

          Гистогра́мма в  математической статистике - это функция, приближающая плотность вероятности  некоторого распределения, построенная  на основе выборки из него.

           Плотность вероятности — один из способов задания вероятностной меры на евклидовом пространстве . В случае, когда вероятностная мера является распределением случайной величины, говорят о плотности случайной величины.

           Свойства  плотности вероятности

           Плотность вероятности  определена почти всюду. Если f является плотностью вероятности  и f(x) = g(x) почти всюду относительно меры Лебега, то и функция g также является плотностью вероятности .

           Интеграл от плотности  по всему пространству равен единице:

           . Плотность случайной величины

           Пусть определено произвольное вероятностное пространство , и случайная величина (или случайный вектор). X индуцирует вероятностную меру   на , называемую распределением случайной величины X.

           Если распределение  абсолютно непрерывно относительно меры Лебега, то его плотность  называется плотностью случайной величины X. Сама случайная величина X называется абсолютно непрерывной. 

           Таким образом для  абсолютно непрерывной случайной  величины имеем:

           Не всякая случайная  величина абсолютно непрерывна. Любое  дискретное распределение, например, не является абсолютно непрерывным относительно меры Лебега, а потому дискретные случайные величины не имеют плотности. 

          
  1. Математи́ческое ожида́ние — мера среднего значения случайной величины в теории вероятностей. Обозначается через  M[X] (возможно, от англ. Mean value, а возможно от русск. Математическое ожидание). В статистике часто используют обозначение μ.

          Пусть задано вероятностное  пространство и определённая на нём случайная величина X. То есть, по определению, — измеримая функция. Тогда, если существует интеграл Лебега от X по пространству Ω, то он называется математическим ожиданием, или средним значением и обозначается M[X].

       

     Если X — дискретная случайная величина, имеющая распределение

     то  прямо из определения интеграла  Лебега ( идея построения интеграла Лебега состоит в том, что вместо разбиения области определения подынтегральной функции на части и составления потом интегральной суммы из значений функции на этих частях, на интервалы разбивают её область значений, а затем суммируют с соответствующими весами меры прообразов этих интервалов.) следует, что

     Однако  математическое ожидание характеризует  случайную величину не полностью: зная математическое ожидание, нельзя сказать, какие конкретно значения принимает  случайная величина и как отклоняются  они от среднего значения. Чтобы знать, как рассеяны значения случайной величины вокруг ее математического ожидания, вводят другую числовую характеристику, называемую дисперсией.

Принимая  во внимание определение математического  ожидания, получаем расчетную формулу  вида: D(X) = .

  1. Диспе́рсия случа́йной величины́ — мера разброса данной случайной величины, то есть её отклонения от математического ожидания. Обозначается D[X] в русской литературе. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.

           Пусть — случайная величина, определённая на некотором вероятностном пространстве. Тогда

           

           Свойства

    1. Дисперсия любой случайной величины неотрицательна:
    2. Если дисперсия случайной величины конечна, то конечно и её математическое ожидание;
    3. Если случайная величина равна константе, то её дисперсия равна нулю: D[a] = 0. Верно и обратное: если D[X] = 0, то X = M[X] почти всюду;
  1. Энтропия

           Энтропи́я (от греч. ντροπία — поворот, превращение) в естественных науках — мера беспорядка системы, состоящей из многих элементов. В частности, в статистической физике — мера вероятности осуществления какого-либо макроскопического состояния; в теории информации — мера неопределённости какого-либо опыта (испытания), который может иметь разные исходы, а значит и количество информации; в исторической науке, для экспликации феномена альтернативности истории (инвариантности и вариативности исторического процесса).

           Информационная энтропия — мера неопределённости источника  сообщений, определяемая вероятностями появления тех или иных символов при их передаче.

           Основной информационной характеристикой дискретной случайной  величины является ее энтропия, вычисляемая по известной формуле К.Шеннона:

     

     Энтропия  измеряется в битах, если основание логарифма равно двум. Величина 1 бит определяет энтропию случайного объекта с двумя равновероятными состояниями (типа элементарной ячейки памяти в ПК). Энтропия характеризует меру неопределенности поведения дискретной случайной величины при ее многократных (повторных) наблюдениях.  Чем больше энтропия, тем более непредсказуемой выглядит анализируемая СВ.

          Энтропия является количеством, определённым в контексте  вероятностной модели для источника  данных. Степень энтропии источника  данных означает среднее число битов на элемент данных, требуемых для её зашифровки без потери информации, при оптимальном кодировании.

          Некоторые биты данных могут не нести информации. Например, структуры данных часто хранят избыточную информацию, или имеют идентичные секции независимо от информации в структуре данных.

          Количество энтропии не всегда выражается целым числом бит.

          Математические свойства

          1)Неотрицательность:

          2)Ограниченность:

          3) Равенство, если все элементы из X равновероятны.

          4) Если  независимы, то .

          5) Энтропия — выпуклая вверх функция распределения вероятностей элементов.

          6) Если имеют одинаковое распределение вероятностей элементов, то H(X) = H(Y).

  1. Взаимная энтропия

           Показателем степени  связи между двумя рассматриваемыми случайными величинами может служить  величина взаимной энтропии или информационного рассогласования двух распределений в метрике Кульбака-Лейблера. Взаимная энтропия (ВЭ) двух случайных величин X, Y вычисляется по формуле

           

           где - это вероятности i-го значения случайной величины X и Y соответственно. Равенство ВЭ нулю достигается лишь при условии идентичности двух распределений. Чем больше различия в законах распределений, чем больше значение ВЭ.  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Вывод

           Целью моей работой  был лингвистический анализ 3 произведений великого русского писателя Толстого.  Различия между вторым и четвёртым  томами могут быть объяснены тем, что писать «Войну и мир» Толстой начал намного раньше, чем официально датирован. По мнению некоторых исследователей, до легендарного четырёхтомника были написаны несколько рассказов, которые позже вошли в произведение. С этой точки зрения различия в математическом ожидании и дисперсии не выглядят настолько колоссальными.  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Список используемой литературы:

    1) В.В. Савченко, В.А. Никольская

    МАТЕМАТИКА  И ИНФОРМАТИКА

    Учебное пособие  для студентов 

    лингвистических специальностей 

    2)Лотов В.И. «Теория вероятностей и математическая статистика. Семестровый курс лекций  для студентов факультета информационных технологий» 

    3)Н. И. Чернова

    «Лекции по математической статистике»

    2-й курс  ЭФ, отделение «математические методы и исследование операций в экономике» 

    4) Математический энциклопедический словарь / Гл. ред. Прохоров Ю. В.. — 2-е изд. — М.: «Советская энциклопедия», 1998. — 847 с. 

Информация о работе Методы теории вероятностей и математической статистики в задачах исследования стилистических особенностей текстов