birmaga.ru
добавить свой файл

1
Краткий научный отчёт


НИИЯФ МГУ о работах за 2007 год по Междисциплинарному научному проекту

"Зелёная химия и молекулярные дескрипторы сложных систем"
В соответствии с Договором № 198-07 от 4 июня 2007 г., НИИЯФ МГУ было поручено проведение научно-исследовательских работ по Междисциплинарному научному проекту "Зелёная химия и молекулярные дескрипторы сложных систем", задача "Разработка методов и алгоритмов решения обратных задач "строение-свойства" для сложных систем".

В рамках проводимых по данному МНП исследований стоит задача восстановления строения и идентификации молекулярных маркеров и дескрипторов по данным физических измерений. В качестве исходных данных физических измерений при этом выступают спектры исследуемых веществ, в частности, спектры флуоресценции водной среды, содержащей гумусовое вещество.

При этом решаемая задача может быть разделена на две подзадачи. Первая из них предусматривает выяснение того, насколько рассматриваемые спектры действительно несут в себе информацию, интересную с химико-биологической точки зрения. С этой целью была поставлена подзадача, которую будем называть задачей кластеризации. Смысл этой подзадачи состоял в следующем. С помощью адаптивного алгоритма кластеризации (нейронная сеть Кохонена) имеющийся массив данных (110 спектров флуоресценции) разбивался на группы (кластеры). В рамках исследований необходимо выяснить, насколько получаемое разбиение на группы объяснимо с химико-биологической точки зрения, и каковы оптимальные параметры алгоритма разбиения. Эта задача также включает в себя определение оптимального способа предобработки данных (спектров).

Вторая подзадача предусматривала разработку методических подходов к решению собственно обратной задачи – определения комплекта молекулярных постоянных исследуемых веществ (позволяющего идентифицировать тот или иной молекулярный дескриптор) с помощью так называемого матричного метода, объединяющего в себе нелинейную и кинетическую флуориметрию. В рамках этого метода исходные данные представляют собой совокупность кинетических кривых, снятых при различной мощности излучения накачки, что позволяет использовать наблюдающиеся при большой мощности накачки нелинейные эффекты (насыщение флуоресценции).


Следует отметить, что каждая точка рассматриваемой матрицы представляет собой интегральную интенсивность по определённой области спектра флуоресценции. При этом положительный результат решения первой подзадачи даёт основания для определения того, какая именно область спектра должна быть использована для расчёта интегральной интенсивности, и какие методы предобработки данных должны применяться.

В рамках первого года работ было принято решение сосредоточиться на решении подзадачи №1, а именно, провести следующие исследования:

1) Осуществить кластеризацию исходного массива спектров (110 спектров, 710 признаков) в различное количество классов от 2 до 10. Сделать попытку объяснить полученное разбиение с химико-биологической точки зрения.

2) Проделать те же исследования, используя в качестве исходных данных сглаженные спектры, а также область спектров с максимальной информативностью (поканальной дисперсией данных). Сравнить полученные результаты кластеризации с полученными в п.1.

3) Учитывая то, что соотношение количества признаков и количества примеров в исходных данных является крайне неблагоприятным, осуществить компрессию данных с целью уменьшения размерности исходных данных для кластеризации. Компрессию осуществить с помощью анализа главных компонент (АГК), линейного и нелинейного, реализованного в виде нейронной сети, работающей в режиме автоассоциативной памяти (соответственно, трёх- и пятислойные сети с "узким горлом").

4) Повторить решение задачи кластеризации на сжатых данных в пространствах низкой размерности при компрессии с помощью линейного и нелинейного АГК. Сравнить результаты кластеризации, полученные в этих случаях, с результатами кластеризации, полученными в пп. 1 и 2.

Коллективом исполнителей из НИИЯФ МГУ были проведены исследования по пп.1)-4), которые были выполнены полностью. Были получены по 9 вариантов кластеризации (в 2,3,4…10 классов) на девяти вариантах исходных данных. В качестве исходных данных использовались следующие:


  1. Исходный массив спектров без какой-либо дополнительной предобработки (размерность пространства признаков 710) (вычислительный эксперимент №1).

  2. То же после сглаживания каждого спектра по 4 соседним каналам (размерность пространства признаков 710) (эксперимент №2).

  3. Исследование информативности разных каналов спектра показало, что наиболее информативной является коротковолновая часть спектра. Эта часть (размерность пространства признаков 342) использовалась в качестве исходных данных для проведения вычислительного эксперимента №.3.

Исследование качества воспроизведения данных на выходе автоассоциативной памяти, работающей в режиме линейного и нелинейного АГК, показало, что качество воспроизведения данных при компрессии до одного признака является явно недостаточным. Рассмотрение зависимостей качества воспроизведения данных от количества выделяемых признаков показало, что характерные перегибы обеих зависимостей наблюдаются при 2 и 5 признаках. При компрессии до 10 признаков данные на выходе сети воспроизводятся с достаточно высокой точностью для того, чтобы признать дальнейшее увеличение числа выделяемых признаков нецелесообразным. Таким образом, было принято решение о проведении следующих вычислительных экспериментов:

  1. Данные сжаты с помощью линейного АГК, размерность пространства признаков 10 (вычислительный эксперимент №4).

  2. Данные сжаты с помощью линейного АГК, размерность пространства признаков 5 (эксперимент №5).

  3. Данные сжаты с помощью линейного АГК, размерность пространства признаков 2 (эксперимент №6).

  4. Данные сжаты с помощью нелинейного АГК, размерность пространства признаков 10 (эксперимент №7).

  5. Данные сжаты с помощью линейного АГК, размерность пространства признаков 5 (эксперимент №8).

  6. Данные сжаты с помощью линейного АГК, размерность пространства признаков 2 (эксперимент №9).

Результаты вычислительных экспериментов №1 и №2 оказались практически идентичными, что является проявлением высокой помехоустойчивости нейронной сети как метода анализа данных. Для всех остальных вычислительных экспериментов результаты оказались в большей или меньшей степени различными, и был проделан подробный анализ различий.

Полученные результаты (результаты кластеризации во всех экспериментах с анализом различий) были переданы коллективу исполнителей с физического факультета для определения того, какое из полученных разбиений выглядит наиболее оправданным с физической, а также с химико-биологической точек зрения.

Продолжение работ в 2008 году может включать в себя использование найденного оптимального алгоритма предобработки данных для решения обратной задачи определения молекулярных дескрипторов по спектрам флуоресценции с помощью матричного метода.