birmaga.ru
добавить свой файл

1

Информационные технологии в биохимическом образовании

С. А. Клюев, преподаватель Туапсинского социально-педагогического колледжа,

г. Туапсе

Информационные технологии широко используются в преподавании естественных учебных дисциплин, в том числе и биохимических. Среди них выделим технологии, связанные с проектированием информационных систем и их эксплуатацией в глобальной сети (CASE-технологии, технологии “клиент – сервер”, скриптов, DCOM и CORBA, технологии визуализации).

1. Введение

Биохимик, работая с информационными моделями, обычно имеет дело с базами, банками данных и инструментами их анализа [1]. Инструменты анализа (специализированные программы) довольно легко копируются на локальный компьютер вместе с требуемыми данными. Кроме того, существует возможность использования программных продуктов, разработанных вне связи с конкретной информационной системой. Для получения необходимой информации об объекте в глобальной сети широко используют технологию “клиент – сервер” и технологию скриптов [2]. Основой технологии “клиент – сервер” является программа-обработчик запросов (например, запроса о протеине):


1 – пересылка исходной HTML-страницы (формы) к клиенту, 2 – возврат заполненной формы, 3 – пересылка результатов обработки. В рассматриваемом случае заполнение формы сводится к набору названия протеина. В отличие от технологии “клиент-сервер”, в технологии скриптов информация обрабатывается на локальном компьютере (информационные процессы протекают иначе).

Перекрывание различных областей знаний привело к появлению качественно новых образований, таких как биологическая информатика (биоинформатика; другое название – компьютерная биология) и химическая информатика (химинформатика; другое название – компьютерная химия):


Перечислим информационные системы, касающиеся биологических наук. Первый тип – архивные информационные системы. К таким информационным системам относятся: GeneBank & EMBL – здесь хранятся первичные последовательности; PDB – пространственные структуры белков. Второй тип – курируемые информационные системы, за достоверность данных в которых отвечают их владельцы. В них информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации – что записано в этих последовательностях, какие есть экспериментальные основания считать, что эти последовательности выполняют ту или иную функцию. К таким информационным системам относятся: Swiss-Prot – наиболее качественная база данных, содержащая аминокислотные последовательности белков; KEGG – информация о метаболизме (такая, которая представлена на карте метаболических путей); FlyBase – информация о Drosophila; COG – информация об ортологичных генах. Поддержание базы требует работы кураторов или аннотаторов. Третий тип – производные информационные системы. Они получаются в результате обработки данных из архивных и курируемых информационных систем. В них входят: SCOP – База данных структурной классификации белков (описывается структура белков); PFAM – База данных по семействам белков; GO (Gene Ontology) – Классификация генов (попытка создания набора терминов, упорядочивания терминологии); ProDom – белковые домены;

2. Основная часть

Работа с информационными системами представляется следующим образом: 1) Сравнение последовательностей (выравнивание двух последовательностей; глобальное и локальное выравнивание, вес выравнивания, матрицы аминокислотных замен; дот-матрицы; глобальное выравнивание: алгоритм Нидельмана-Вунша; локальное выравнивание: алгоритм Смита-Ватермана; другие алгоритмы локального выравнивания; другие варианты выравнивания (fitting, overlaps, блочное выравнивание, сплайсированное выравнивание); статистическая значимость выравниваний и ее зависимость от вероятностной модели последовательности; зависимость выравнивания от параметров). 2) Множественное выравнивание (динамическое программирование; последовательное выравнивание (Clustal); другие алгоритмы множественного выравнивания (DIALIGN, Match-Box, алгоритм Леонтовича-Бродского); профили, скрытые марковские модели; поиск блоков). 3) Поиск по сходству в базах данных (Smith-Waterman; хэширование (lookup table); BLAST; FASTA; оценка значимости (E-value, P-value); фильтрация повторов и обработка участков малой сложности (фильтрация, пересчет значимости); паттерны (Prosite), профили, Psi-BLAST, HMM (PFAM)). 4) Автоматическое аннотирование последовательности. Онтология. 5) Пространственная структура биополимеров (PDB (структура записи PDB, визуализация, анализ структурных особенностей, моделирование); предсказание вторичной структуры белков; предсказание третичной структуры белков по гомологии; threading; docking; предсказание параметров спирали ДНК; предсказание вторичной структуры РНК (представление вторичной структуры РНК, минимизация энергии вторичной структуры, динамические модели РНК, сравнительный подход по гомологичным и изофункциональным РНК)). 6) Предсказание функции по последовательности (белки (анализ гомологов, функциональные сигналы, лидерные пептиды и трансмембранные сегменты, сайты модификации); ДНК (функциональные сайты, гены прокариот, гены эукариот, сравнительные методы предсказания генов); РНК (поиск РНК с заданной структурой)). 7) Молекулярная эволюция (эволюция молекул и организмов; филогенетическое дерево как математический объект; модели эволюции; алгоритмы построения филогенетических деревьев (матрица расстояний, методы, основанные на матрице расстояний (UPGMA, neighbour-joining, minimal evolution, топологические инварианты и др.), другие методы (максимальная экономия, максимальное правдоподобие), алгоритмические проблемы поиска оптимального дерева, bootstrapping, согласование деревьев); эволюция на уровне генома; анализ популяционных данных (SNP , тандемные повторы, митохондрии и Y-хромосомы, данные по рестрикции)). 8) Статистика последовательностей ДНК ((ди)нуклеотидный состав (изохоры, GC-острова, картирование старта репликации); частые и редкие слова (вероятностные проблемы); статистика ДНК как характеристика генома). 9) Вычислительная геномика (метаболическая реконструкция (в т.ч. неортологичные замещения); позиционный анализ; эволюция регуляторных взаимодействий; эволюция белковых семейств, их доля в геноме).


В настоящее время подобного рода работа не мыслима без использования технологий, связанных с визуализацией (графического представления данных). Объект представляется геометрически правильно в двумерной или трехмерной системе координат. Фигура может быть представлена в виде набора графических примитивов (отрезков, дуг, окружностей, эллипсов, сплайнов). Так как изображение формируется в системе координат, то задается некий массив точек и тип примитивов, который располагается между ними. Изображение, которое располагается на экране, может быть преобразовано: поворот на угол, растяжение и перенос.

Принято произвольное преобразование описывать матрицей, при этом вводятся однородные координаты, где добавляется еще одна координата, которая фиксирована. Тогда в двумерной плоскости это матрица из трех величин

.

В трехмерном пространстве матрицы будут иметь 4 строки и 4 столбца. Чтобы изобразить трехмерное тело, необходимы проекции. Параллельная проекция: точки предмета проецируются параллельно заданному направлению лучами. Центральная проекция – все проектирующие лучи проходят через одну точку. Каждая из этих проекций имеет свою матрицу проектирования. Для моделирования поверхности используют принцип текстуры, т.е. выбираются значительные части поверхности, которые будут заполнены одинаковой текстурой. Текстура состоит из одинаковых рисунков, которые повторяются. Для моделирования цветов используются специальные схемы. В четырехцветной схеме (для печати) существует понятие оттенка. Моделирование среды представляется следующим образом. Изображение находится в какой либо среде – свет, тень, фон. Существуют методы изменения цвета объекта, чтобы показать освещение с того или иного места и рассеянный свет, сформировать более темную область тени. Особую роль играет интеллектуальная графика. Изображение представляется в виде совокупности элементов, которые записываются в виде одной строки. Сравнение строк позволяет выделять объект, распознавать его и связать с ним определенные действия.


По результатам расчетов можно построить двумерные и трехмерные карты. Двумерная карта фрагмента аспарагиновой кислоты показана ниже:


Для предсказания структур и выяснения причин существования той или иной структуры используют компьютерное моделирование. Например, одна из причин наличия неспирализованных участков в белковой глобуле - взаимодействие между положительно заряженной аммонийной группой и отрицательно заряженной карбоксилатной группой (-N+H3-OOC-; электростатическое притяжение и водородная связь) [3]:


В данном случае для проведения расчетов применялись полуэмпирические методы (пакеты программ WinMopac и MOPAC 2009, не являющиеся программами информационных систем).

3. Заключение

Использование информационных технологий в биохимическом образовании позволяет быстро находить информацию об объекте в информационных системах, обрабатывать её и представлять в доступном для понимания виде.
Литература

1. Уотерман Р.Д., Ленат Д., Хейсе-Рот Ф. Построение экспертных систем. М.: Мир, 1987.

2. Максимов И.В., Попов И.И. Компьютерные сети: Учебное пособие. M.: Форум, 2005.

3. Клюев С.А. Компьютерное моделирование. Волжский: ВПИ ВолгГТУ. 2009. 89 с. HTTP://window.edu.ru.

______________________________________________________________