Методы теории вероятностей и математической статистики в задачах исследования стилистических особенностей текстов

Автор: Пользователь скрыл имя, 18 Декабря 2010 в 04:06, реферат

Описание работы

Цель работы: формирование у студентов навыков практической работы с современными информационными системами и технологиями в одной из наиболее динамично развивающихся областей современной лингвистики, где математика и информатика – два неотъемлемых инструмента исследователя.

В данной работе мною будет проведён лингвистический анализ трёх произведений Толстого.

Содержание

Введение 3

Глава 1 4

Глава 2 12

Таблица взаимной энтропии 13

Глава3 15

Случайная величина 15

Закон распределения случайной величины 16

Вариационный ряд 18

Гистограмма распределения вероятности 18

Математическое ожидание 20

Дисперсия случайной величины 21

Энтропия 21

Взаимная энтропия 23

Вывод 24

Список используемой литературы 25

Скачать полностью (426.09 Кб) Сколько стоит заказать работу?

Работа содержит 1 файл

р.doc

— 957.50 Кб (Скачать)

Л.Н.Толстой «Анна Каренина» том 1 часть 1

Длина предло-жения	Частота появления в тексте
1	0.010425
2	0.0336808
3	0.0737771
4	0.074579
5	0.0737771
6	0.0537289
7	0.0593424
8	0.0465116
9	0.0473136
10	0.0408982
11	0.042502
12	0.0376905
13	0.0376905
14	0.032077
15	0.0328789
16	0.0264635
17	0.0288693
18	0.0200481
19	0.0200481
20	0.0176423
21	0.0120289
22	0.0152366
23	0.0160385
24	0.0120289
25	0.0160385
26	0.0136327
27	0.00721732
28	0.00721732
29	0.0064154
30	0.00160385
31	0.00882117
32	0.0032077
33	0.00481155
34	0.00801925
35	0.00160385
36	0.00882117
37	0.00400962
38	0.00561347
39	0.0032077
40	0.00400962
41	0.00400962
42	0.00160385
44	0.00240577
45	0.00160385
46	0.00400962
47	0.00160385
48	0.000801925
49	0.00240577
50	0.000801925
51	0.000801925
53	0.000801925
54	0.000801925
55	0.00160385
58	0.000801925
59	0.000801925
61	0.000801925
63	0.00160385
65	0.000801925
75	0.000801925
76	0.000801925
83	0.000801925

Л.Н.Толстой «Анна Каренина» том 1 часть 2

Длина предло-жения	Частота появления в тексте
1	0.0132509
2	0.020318
3	0.0574205
4	0.0556537
5	0.0600707
6	0.0644876
7	0.0591873
8	0.0415194
9	0.0503534
10	0.0459364
11	0.0415194
12	0.0415194
13	0.0300353
14	0.0291519
15	0.0309187
16	0.0326855
17	0.0344523
18	0.0273852
19	0.0220848
20	0.0159011
21	0.020318
22	0.0114841
23	0.0106007
24	0.0123675
25	0.0167845
26	0.0123675
27	0.00971731
28	0.0167845
29	0.0106007
30	0.00795053
31	0.00441696
32	0.00971731
33	0.00530035
34	0.00530035
35	0.00530035
36	0.00618375
37	0.00353357
38	0.00618375
39	0.00530035
40	0.00441696
41	0.000883392
42	0.00265018
43	0.00530035
44	0.00265018
45	0.000883392
46	0.00176678
47	0.00176678
48	0.00530035
49	0.00353357
50	0.00265018
51	0.000883392
52	0.000883392
53	0.000883392
54	0.00176678
55	0.000883392
56	0.00176678
58	0.000883392
71	0.000883392
73	0.000883392
74	0.000883392
75	0.000883392
76	0.000883392
80	0.000883392
82	0.000883392

Глава 2

Сравнивая полученные результаты по второму тому «Войны и Мира» приходим к неожиданным результатам. Математическое ожидание длины предложений в первой части тома составляет М =13,4955 а математическое ожидание длины второй части этого же тома М=15,41667 что на 2 целых больше первого. Такая же ситуация возникает с областью отклонения от среднего принимаемого значения. То есть дисперсией D = 2,09062 для первой части и D= 6,089173. Этот факт может говорить о том, что между написанием первой половины тома и второй прошло некоторое время, или же сам автор уже после написания романа возвращался ко второй половине тома и корректировал его. Это легко можно увидеть, если сравнить с данными по четвёртому тому, а именно М(1)=16,75726 и М(2)=16,23659, где разница между ожидаемыми длинами предложений незначительна, как впрочем, и дисперсия D(1) = 6,978726 и D(2)=6,74775. В то же время энтропия( мера хаотичности) отличается незначительно:

H(том 2 часть 1) = 5,268026

H(том 2 часть2)= 5,337842

H(том 4 часть 1)= 5,032997

H(том 4 часть2)= 5,180913

Особенностью написания романа «Война и мир» в том, что Толстой использовал уже написанные им ранее рассказы. Таким образом, если предположить, что первая половина второго тома содержит материалы, наработанные Толстым в период с 1856 (он сам указывал на эту дату), то становится объясним тот факт, что к окончанию написания романа (четвёртого тома) стилистика написания Толстого изменилась. Таким образом, период написания романа (датирован 1863—1869 годами) был более продолжительный, нежели принято считать.

Роман Анна Каренина был написан в период 1873 по 1877 годы. Разница между первой и второй частями первого тома «Анны Каренина», не столь очевидная как в случае с первой частью второго тома «Войны и мира», но всё же присутствует (М(1)= 13,29671 и М(2)=14,70848). Разница указывает на длительность периода написания произведения.

Таблица взаимной энтропии

	1	2	3	4	5	6
1		0,071944	0,099766	0,093662	0,065582	0,07786
2	0,05830		0,066142	0,063207	0,09099	0,085681
3	0,079518	0,056996		0,059223	0,093681	0,081313
4	0,086461	0,067645	0,058267		0,093374	0,05361
5	0,057407	0,085759	0,097459	0,090824		0,07391
6	0,069056	0,081409	0,080514	0,052477	0,073463

На каждом Листе создаём таблицу, подобную вышеуказанной, с той разницей, что на Листе1 отсутствует столбец с названием 1, на Листе 2 отсутствует столбец 2, и так далее (ведь вычислить взаимную энтропию необходимо для пары текстов, а взаимную энтропию для текста относительно самого себя считать не надо).
Для вычисления взаимной энтропии используем формулу, подобную данной =$B2*LOG($B2/ЛистХ!$B2;2), где Х - это номер текста относительно которого считается взаимная энтропия. Находим сумму каждого получившегося столбца и переносим его в Таблицу Взаимной Энтропии.

Выводы:

Если проанализировать таблицу взаимной энтропии, то можно определить пару текстов максимально похожую друг на друга и ту пару, которая максимально разнится (по распределению СВ - длины предложений). Та пара текстов наиболее похожа друг на друга, чьё значение минимально в данной таблице. Таким образом это пара текстов 6\4 – вторая часть первого тома «Анны Карениной» и вторая часть четвёртого тома «Войны и мир». Максимально отличающейся друг от друга парой текстов является (по результату анализа) пара 5\3: первая часть первого тома «Анны Карениной» и первая часть четвёртого тома «Войны и мир». Максимальное различие объясняется тем, что книги написаны с разницей примерно в 10 лет. Так же можно предположить? что Толстой вкладывал разную эмоциональную нагрузку и смысл в четвёртом томе «Войны и мира» нежели в первом томе «Анны Карениной». Из результатов работы видно, что на всех этапах своего творчества Толстой тяготел к использованию пространных предложений со сложной стилистикой: нам он известен своими предложениями - «глыбами». Последнее подтверждается и в нашем исследовании при анализе вариационного ряда, гистограммы и результатов вычисления M, D, H.

Глава 3

Случайная величина

Случайная величина — это величина, которая принимает в результате опыта одно из множества значений, причем появление того или иного значения этой величины до её измерения нельзя точно предсказать.

Если каждому элементарному событию поставить в соответствие число , для которого выполняется условие: то считается, что заданы вероятности элементарных событий . Вероятность события, как счётного подмножества пространства элементарных событий, определяется как сумма вероятностей тех элементарных событий, которые принадлежат этому событию. Требование счётности важно, так как, иначе сумма будет не определена.

Случайные величины могут принимать дискретные, непрерывные и дискретно-непрерывные значения. Соответственно случайные величины классифицируют на дискретные, непрерывные и дискретно-непрерывные (смешанные).

Дискретной называется случайная величина, которая может принимать конечное или счетное множество значений (счетным называют множество, элементы которого можно пронумеровать).

Непрерывной СВ называют случайную величину, возможные значения которой сплошь заполняют некоторый числовой интервал.

Дискретная СВ может принимать возможные значения с различными вероятностями. Чтобы охарактеризовать дискретную случайную величину в статистическом смысле, необходимо указать вероятности всех ее значений.

Свойства.

1)Математическое ожидание числа есть само число.

M[a] = a

— константа;

2)Математическое ожидание линейно, то есть

M[aX + bY] = aM[X] + bM[Y],

где X,Y — случайные величины с конечным математическим ожиданием, а — произвольные константы;

3) Математическое ожидание сохраняет неравенства;

4) Математическое ожидание не зависит от поведения случайной величины на событии вероятности нуль, то есть если X = Y почти наверное, то

M[X] = M[Y].

5) Математическое ожидание произведения двух независимых случайных величин X,Y равно произведению их математических ожиданий

M[XY] = M[X]M[Y].

Закон распределение случайной величины

Кумуляти́вная фу́нкция распределе́ния (или просто функция распределения) в теории вероятностей однозначно задаёт распределение случайной величины или случайного вектора.

Пусть дано вероятностное пространство , и на нём определена случайная величина X с распределением . Тогда функцией распределения случайной величины X называется функция , задаваемая формулой:

Если случайная величина X дискретна, то есть её распределение однозначно задаётся функцией вероятности

Информация о работе Методы теории вероятностей и математической статистики в задачах исследования стилистических особенностей текстов