Моделирования связи «структура химических соединений –молекулярные свойства и биологическая активность»
Реферат, 11 Апреля 2011, автор: пользователь скрыл имя
Описание работы
Цель данной работы состоит в разработке эффективных методов математического и компьютерного моделирования связи «структура химических соединений –молекулярные свойства и биологическая активность» на основе стратегии формирования базы данных и знаний из имеющихся примеров, а также в создании компьютерных технологий поддержки профессиональных химико-структурно-биологических баз данных и знаний. Для достижения указанной цели по поиску эффективных препаратов с заданными свойствами требуется углубленный анализ и теоретические исследования первичных экспериментальных данных с использованием современных информационно - компьютерных технологий и методов математического моделирования
Работа содержит 1 файл
Глава I.doc
— 423.50 Кб (Скачать)Прогноз класса токсичности предполагается осуществлять на основе моделей и алгоритмов распознавания образов и теории статистических решений.
Количественный прогноз предполагается осуществлять на основе неаддитивных моделей с использованием понятия о парциальных вкладах структурных элементов.
В рамках данной задачи необходимо произвести исследование математических подходов прогноза токсикологических параметров, а также сравнение полученных результатов с результатами существующих коммерческих пакетов прогнозирования токсикологических свойств.
- Система компьютерной поддержки.
Необходимо разработать автоматизированную информационно-поисковую систему, оснащенную математическими процедурами статистического моделирования токсикологических свойств химических веществ, состоящую из:
- Подсистемы поддержки профессиональных структурно-химических баз данных и знаний;
- Подсистемы прогнозирования тосикологических свойств органических молекул с учетом или без учета их физико-химических параметров. Она позволит создавать обучающие и экзаменационные выборки из баз данных, задавать или выбирать из меню различные описания химической структуры или иных признаков, выбирать различные модели статистической обработки данных для построения решений о принадлежности молекул к тому или иному классу токсичности, а также структурно-аддитивные и неаддитивные математические модели, которые используются для нахождения количественных корреляций структура – свойства.
Другими словами компьютерная система позволит осуществлять прогноз токсикологических параметров веществ с использованием моделей теории распознавания образов и кусочно-линейных регрессионных моделей, где интервалами линейности являются классы опасности химических соединений.
То, есть, необходимо создать компьютерную информационно-поисковую систему, которая даст возможность в режиме диалога вести оперативный прогноз токсикологических показателей, проверять на больших выборках гипотезы о связи структуры веществ с их биологическим действием, а также анализировать сравнительную информативную ценность различных групп факторов при изучении механизмов взаимодействия веществ с живым организмом. Такая система позволит повысить достоверность получаемых научных результатов и поможет существенно снизить трудоемкость исследовательских работ за счет качественно нового их уровня.
Научный задел. Разработан математический подход классификации химических веществ по степени токсичности в острых опытах. Проведена апробация данного подхода на большом экспериментальном материале и установлены научно обоснованные границы классов опасности химических соединений. Разработана подсистема поддержки профессиональных структурно-химических баз данных и знаний. В ходе выполнения проекта в компьютерную систему нужно добавить подсистему расчета токсикологический параметров.
Таким образом, целью данной работы является создание универсальной масштабируемой компьютерной системы, предназначенной для применения на практике алгоритмов поиска и анализа отношений "структура-активность". Такая система должна поддерживать как возможности информационного поиска и навигации, так и построения баз знаний на основе имеющихся данных. Также система должна быть открытой, расширяемой и максимально гибкой, с возможностью добавления новых возможностей.
В соответствии с целью поставлены следующие задачи:
- Разработка математически обоснованной универсальной классификации химических соединений по показателю токсичности;
- Разработка алгоритмов и методов для качественного прогнозирования принадлежности химического соединения к заданному классу токсичности.
- Разработка и апробация моделей для количественного прогноза показателя токсичности LD50;
- Разработка и использование моделей для предсказания токсичности по липофильности;
- Создание универсальной масштабируемой системы компьютерной поддержки, которая должна включать в себя:
- иерархию классов, обеспечивающих гибкость и универсальность в настройке и расширении приложения (framework):
- графический редактор структурных формул химических соединений;
- подсистему моделирования;
- подсистему хранения и информационного поиска данных;
Глава 2
Математическая модель классификации химических соединений по их различным свойствам
Известно, что в организованном сообществе элементы распределены в соответствии с гиперболическим законом, то есть:
где Q1 — количество элементов в первом классе,r — ранг класса (r = 1…n), Q(r) — количество элементов в данном классе.
Для r=1,
(3.2.III) , где Q — количество элементов сообщества,
Это уравнение дает общее решение по разбиению множества из Q элементов на n классов. Отсюда необходимо найти b.
По формуле Шеннона: (3.2.V), где H — энтропия информации, pi — вероятность попадания Qi элементов множества Q в данный класс i, или
Предельные значения энтропии информации равны 0 и Hmax. Hmax рассчитывается по формуле Хартли: Hmax = log2(n).
По принципу структурной гармонии Шеннона получаем обобщенное золотое сечение:
Отсюда найдем H, как положительный действительный корень (по условию) полинома n+1 степени.
Подставляя (3.2.I) в формулу (3.2.VI), зная значение H, имеем:
Значение b, положительно определенное по условию, вычисляется из (3.2.IX) одним из численных методов решения уравнений. Далее, из (3.2.III) вычисляется значение Ф. После этого, подставляя Ф в (3.2.I), получаем количество элементов в каждом классе.
Для получения пределов значений показателя, по которому организовано (упорядочено) семейство, необходимо взять значения этого показателя для первого и последнего элемента каждого класса.
Регрессионные модели и их характеристики
Уравнение линейной регрессии имеет вид: y = a + bx + e [2].
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических ŷx минимальна, то есть:
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:
Из этой системы следуют формулы:
Для расчета множественной линейной регрессии данные представляются в матричной форме [6]:
Y = Xb + e,
или
где матрица X называется регрессионной матрицей, вектор b — неизвестные параметры, подлежащие оцениванию, а столбец e — ошибки.
Пользуясь МНК, имеем:
В результате получаем выражение для оценки вектора b:
Соответственно, появляется модель, связывающая экспериментальные данные:
Как
для моделей парной, так и для
множественной регрессии
Таблица 7
| Название характеристики | Обозначение | Формула | Описание |
| Полная дисперсия | TSS | Общая сумма квадратов отклонений зависимой переменной от ее выборочного значения | |
| Часть дисперсии, необъясненная регрессией | ESS | Необъясненная сумма квадратов отклонений | |
| Часть дисперсии, объясненная регрессией | RSS | Объясненная сумма квадратов отклонений | |
| Коэффициент детерминации | R2 | RSS/TSS | — |
| F-статистика
(критерий Фишера) |
F | Оценка
качества уравнения регрессии. Состоит
в проверке гипотезы H0 о статистической
незначимости уравнения регрессии. Для
этого выполняется сравнение фактического
F (где n – число единиц совокупности, m
— число параметров при переменных x) и
табличного (критического) Fтабл.
Fтабл — это максимально возможное
значение критерия под влиянием случайных
факторов при данных степенях свободы
и уровне значимости α. Уровень значимости
α — вероятность отвергнуть правильную
гипотезу при условии, что она верна. Обычно
α принимается равным 0,05 или 0,01.
Если Fтабл < F, то H0 — гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Иначе — |
Продолжение таблицы 7
| Название характеристики | Обозначение | Формула | Описание |
| признается статистическая незначимость, ненадежность уравнения регрессии. | |||
| Средняя ошибка аппроксимации | Среднее отклонение расчетных данных от фактических |
Для
расчета доверительных
Таблица 8
| Название характеристики | Обозначение | Формула | Описание |
| Случайная ошибка параметра a линейной регрессии |
ma | — | |
| Случайная ошибка параметра b линейной регрессии |
mb | — | |
| t-критерий Стьюдента для параметра а | ta | Рассчитывается для оценки статистической значимости коэффициентов регрессии. Выдвигается гипотеза H0 о случайной природе показателей, то есть о незначимом их отличии от нуля. Сравнивая фактическое и табличное (критическое) значения для заданного уровня значимости, принимаем или отвергаем выдвинутую гипотезу: если | |
| t-критерий Стьюдента для параметра b | tb |
Продолжение таблицы 8
| Название характеристики | Обозначение | Формула | Описание |
| tтабл > tфакт, то H0 отклоняется, то есть a и b не случайно отличаются от нуля и сформировались под воздействием систематически действующего фактора x, иначе — природа формирования случайна. | |||
| Доверительные интервалы параметров линейной регрессии | a- tтаблma | Если в границы доверительного интервала попадает ноль, то есть нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может принимать и положительное, и отрицательное значение. | |
| a+ tтаблma | |||
| b- tтаблmb | |||
| b+ tтаблmb |