birmaga.ru
добавить свой файл

1


Государственное образовательное учреждение высшего профессионального образования Академия народного хозяйства при Правительстве Российской Федерации
Факультет национальной экономики

Отделение информационных систем и технологий
Рег. № _______________

«___»_______________ 200___ г.

УТВЕРЖДАЮ

Зав. отделением

Филиппович А.Ю.
«___»_______________ 2007 г.

ПРОГРАММА КУРСА

Компьютерная лингвистика”
Программы «Информационные системы управления предприятием»


Москва
2007


Раздел 2. «РАБОЧАЯ ПРОГРАММА КУРСА»

Раздел 1. Организационно-методический

1.1. Место курса в образовательной программе


Учебно-методический комплекс (УМК) «Компьютерная лингвистика» предназначен для изучения одноименной дисциплины, которая входит в состав образовательной программы «Информационные системы управления предприятием». Может входить в циклы Общих математических и естественнонаучных, Общепрофессиональных дисциплин регионального и вузовского компонентов, а также названных и Специальных дисциплин в качестве курса по выбору действующих образовательных программ подготовки бакалавров Государственного образовательного стандарта второго поколения (ГОС-2) направления 230200 «Информационные системы» в организационный период утверждения образовательной программы «Информационные системы управления предприятием» в органах Минобрнауки. УМК соответствует также и требованиям проекта Государственного образовательного стандарта третьего поколения (ГОС-3) подготовки бакалавров по направлению «Информационные системы» и может входить в переходные образовательные программы до момента его утверждения органами Минобрнауки.

Дисциплина «Компьютерная лингвистика» базируется на компетенциях приобретенных (достигнутых) студентами в результате освоения дисциплин «Математика» и «Информатика» и. может быть включена в учебный план после них.

1.2. Цели и задачи курса


Целью изучения дисциплины является приобретение следующих компетенций:

  • Лингвистика как предметная область научных исследований и разработок.

  • Количественная спецификация ЕЯ знаковых систем.

1.3. Требования к уровню освоения курса


В результате изучения материала дисциплины «Компьютерная лингвистика» студенты должны:

Знать: методы и решения в системах организации знаний; эмпирические законы ЕЯ описания; логико-статистические методы анализа ЕЯ описания предметных областей; технологию автоматизированной обработки текстовой информации.

Уметь: использовать технологию автоматизированной обработки текстовой информации для анализа ЕЯ описаний предметных областей.

Иметь навыки: работы со специальными программными средствами автоматизированной обработки текстов.

Иметь представление: о системе языковедческих дисциплин; предмете, методах и моделях прикладной лингвистики; предмете компьютерной лингвистики.

Более подробно знания, умения и навыки представлены в документе «Модель компетенций УМК «Компьютерная лингвистика».

1.4. Формы контроля по курсу. Критерии оценки знаний, умений, навыков


Итоговый контроль. Для контроля усвоения данного курса предусмотрен экзамен в письменной форме в соответствии с учебным планом. Экзаменационная оценка является итоговой по курсу и проставляется в приложение к диплому.

Текущий контроль. В процессе изучения курса после завершения тем осуществляется тестовый контроль знаний слушателей. Слушатели обязаны пройти тестирование по ассоциативному тесту три раза (два раза после завершения тем и один раз перед началом обучения), когнитивному тесту два раза, по тесту-заданию один раз. Результаты тестирования доводятся до сведения слушателей и используются ими для самоконтроля освоения дисциплины. Преподаватель использует результаты тестирования в методических целях для совершенствования преподавания дисциплины. Сведения о результатах тестирования носят конфиденциальный характер.


Предусмотренное планом домашнее задание должно быть сдано до конца семестра. Преподаватель оценивает задание. Если задание не выполнено или не удовлетворяет предъявленным требованиям, слушатель не допускается до сдачи экзамена.

Раздел 2. Содержание курса

2.1. Организационно-методические данные курса



Вид учебной работы

Трудоемкость

(в акад. часах и/или кредитах)




всего

семестр

Общая трудоемкость

4,3 ЗЕ

4,3 ЗЕ

Аудиторная работа

1,2 ЗЕ

1,2 ЗЕ

Лекции

1,0 ЗЕ

1,0 ЗЕ

Лабораторные работы

0,2 ЗЕ

0,2 ЗЕ

Самостоятельная работа

1,8 ЗЕ

1,8 ЗЕ

Домашнее задание

0,7 ЗЕ

0,7 ЗЕ

Самоподготовка

1,1 ЗЕ


1,1 ЗЕ

Виды текущего контроля

0,3 ЗЕ

0,3 ЗЕ

Ассоциативный тест (три раза)

0,1 ЗЕ

0,1 ЗЕ

Когнитивный тест (два раза)

0,1 ЗЕ

0,1 ЗЕ

Тест-задание

0,1 ЗЕ

0,1 ЗЕ

Вид итогового контроля







Итоговый контроль

1 ЗЕ

1 ЗЕ

Экзамен

Экз.

Экз.

* Расчет кредитов осуществляется согласно методики Минобрнауки РФ.

2.2. Тематический план курса





Наименование разделов (модулей) и тем

Очная форма обучения

Количество часов (в акад. часах и/или кредитах)

Лекции


Практические занятия

Самостоятель­ная работа

Всего часов по теме

Модуль 1.
Введение в компьютерную лингвистику


2




2

4

Тема 1.1. Лингвистика как предметная область научных исследований и разработок

2




2

4

Модуль 2.
Исследование ЕЯ ресурсов.


16




40

56

Тема 2.1. Количественная спецификация ЕЯ знаковых систем.

16




40

56

Модуль 3.
Программные средства анализа текстов


16

8


24

48

Тема 3.1. Система автоматизированного анализа ЕЯ текстов «Интерлекс».

16

8

24

48

Итого по курсу:

34/1

8/0,2

66/1,8

108/3,0

2.3. Содержание курса


Основные занятий по курсу – лекции, которые разделены на три следующих модуля:

Модуль 1. Введение в компьютерную лингвистику

Тема 1.1. Лингвистика как предметная область научных исследований и разработок.

Система языковедческих дисциплин: общее языкознание и частные области, русистика, типология языков, ареальная лингвистика, интерлингвистика, прикладная лингвистика. Предмет, методы и модели прикладной лингвистики. Структура исследований и разработок в прикладной лингвистике. Предмет компьютерной лингвистики.

Модуль 2. Исследование естественно-языковых ресурсов

Тема 2.1. Количественная спецификация ЕЯ знаковых систем.

Методы и решения в системах организации знаний: автоформализация знаний, формализация знаний, лексикографическое (словарное) описание, логико-интуитивное описание, организация знаний, методы анализа знаний, методы извлечения знаний. Словарно-тезау­рус­ное представление знаний: предпосылки обобщения форм представления знаний, обобщение методов формализации знаний, определение и свойства словарно-тезаурусного описания.


Статистический анализ ЕЯ описания. Модель «ранг–частота». Закон Ципфа.

Логико-статистические методы анализа ЕЯ описания предметных областей: дистрибутивно-статистический метод, компонентный анализ, частотно-семантический метод. Синтагматическая модель текста: формальное описание основных синтагм, формальное описание производных синтагм и их конструктивов, статистический анализ синтагматических конструктивов. Парадигматическая модель текста.

Технология автоматизированного построения словаря-тезауруса: лингвистическая база данных, карта понятия, технология построения иерархической семантической сети. Пример исследования: ядро ЕЯ описания ПО, генеральный словник, семантическая сеть. Описание словаря-тезауруса по предметной области «Информатика и вычислительная техника».

В теме предусмотрено домашнее задание «Исследование естественно-языковых ресурсов», которое выполняет каждый слушатель самостоятельно по собственным материалам.

Модуль 3. Программные средства анализа текстов

Тема 3.1. Система автоматизированного анализа естественно-языковых текстов «Интерлекс». Общая характеристика системы: архитектура, установка. Описание интерфейса: структура, системные функции, режим «Словник», режим «Словоформы», режим «Словарь», режим «Дерево», режим «Сеть». Структура лингвистической базы данных.

В теме предусмотрен аудиторный практикум в форме двух лабораторных работ:
№ 1. Частотный анализ текста и № 2. Динамический анализ текста.

2.4. Самостоятельная работа слушателей


Виды самостоятельной внеаудиторной работы: самостоятельная работа над материалом лекций; самостоятельная работа по материалам лабораторных работ; выполнение домашнего задания.

Самостоятельная работа над материалом лекций:

1. Самостоятельное изучение обязательной литературы.

2. Самостоятельное изучение дополнительной литературы и материалов тематических Интернет порталов и сайтов, составление конспекта изученных материалов.


3. Повторение лекционного материала и подготовка к текущему контролю.

4. Составление индивидуальных тематических словарей.

5. Подготовка личных письменных ответов на экзаменационные вопросы по дисциплине.

Самостоятельная работа над материалом лабораторных работ:

1. Самостоятельное приобретение навыков (закрепление умений) работы с системой «Интерлекс».

Домашнее задание «Исследование естественно-языковых ресурсов»


Задачи:

1. Провести частотный анализ ЕЯ описания ПО.

2. Составить предметный (терминологический) и именной указатели.

3. Составить грамматический словарь.

4. Составить конкорданс.

5. Составить словарь определений терминов.

6. Составить информационно-поисковый терминологический тезаурус.

Раздел 3. Учебно-методическое обеспечение курса

3.1. Список вопросов для подготовки к экзамену

Модуль 1. Введение в компьютерную лингвистику


1. Система языковедческих дисциплин.

1. Языкознание.

2. Прикладная лингвистика.

3. Предмет, методы и модели прикладной лингвистики.

4. Структура исследований и разработок в прикладной лингвистике.

2. Компьютерная лингвистика.

1. Компьютерная лингвистика как междисциплинарное научное направление.

2. Когнитивный инструментарий компьютерной лингвистики.

3. Предмет компьютерной лингвистики.

4. Основные направления исследований и разработок.

3. Средства компьютерной лингвистики.

1. Автоматизация научных исследований в языкознании.

2. Поддержка коммуникативного взаимодействия.

3. Издательское дело и полиграфия.

4. Архивное и библиотечное дело.

Модуль 2. Исследование ЕЯ ресурсов.

4. Основы теории частот слов.


1. Частотные параметры естественного языка.

2. Формулировка Ципфа закона частот слов.

3. Поправка Мандельброта.

4 .Методика исследования частотных характеристик ЕЯ текстов.

5. Логико-интуитивный метод анализа ЕЯ описания предметных областей:

1. Парадигматические отношения.

2. Тезаурус.

3. Этапы построения тезауруса.

4 .Привести пример тезауруса

6. Дистрибутивно-статистический метод анализа ЕЯ описания предметных областей:

1. Идея и история разработки метода.

2. Коэффициенты связи.

3. Достоинства и недостатки метода.

4 .Привести пример использования метода.

7. Метод компонентного анализа ЕЯ описания предметных областей:

5. Идея метода.

6 .Граф дефиниций.

7 .Коэффициенты связи.

8. Привести пример построения графа дефиниций.

8. Частотно-семантический метод анализа ЕЯ описания предметных областей.

1. Идея метода.

2. Семантический множитель.

3. Способы получения семантических множителей (лемматизация, свертка, выделение корня, квазиоснова.).

4. Методика получения семантического кода слова.

9. Частотно-семантический метод анализа ЕЯ описания предметных областей.

1. Учет частотных характеристик.

2. Методика построения семантических полей

3. Феноменологическая модель, модель связанности.

4. Методика частотно-семантического анализа.

10. Синтагматическая модель текста.

1. Структура синтагматической модели текста.

2. Формальное описание основных синтагм: алфавит, слово, предложение, текст.

3 .Формальное описание производных синтагм и конструктивов: корпус текстов, контекст, словосочетание, частотный словник, словоуказатель.

4. Операции над синтагматическими конструктивами.


11. Парадигматическая модель текста.

1. Структура парадигматической модели текста.

2. Парадигматические конструктивы: предметный и именной указатели, словарь.

3. Словари: грамматический, словосочетаний, текстов, определений.

4. Тезаурус и ареал.

3.2. Список практических вопросов-заданий для подготовки к экзамену

3.2.1. Выполнить компонентный анализ текста.


1. Понять содержание текста. Выбрать не менее 10 ключевых слов (дескрипторов), смысл которых отражает содержание текста.

2. Вербализовать смысл ключевых слов, дав им толкование.

3. Построить трехуровневый граф дефиниций и определить его количественные характеристики.

3.2.2. Выполнить частотный анализ текста.


1. Построить гистограмму распределения частот слов в тексте.

2. Сравнить полученные результаты с распределением частот Ципфа.

3. Для полученного распределения частот слов в тексте вычислить коэффициенты формулы Мандельброта.

3.2.3. Изложить содержание ранее изученной и законспектированной статьи.


1. Изложите конспективно содержание статьи.

2. Приведите определения пяти основных понятий статьи.

3.3. Список рекомендуемой основной и дополнительной литературы

3.3.1. Основная литература


Филиппович Ю., Прохоров А. Семантика информационных технологий: опыты словарно-тезаурусного описания / Серия «Компьютерная лингвистика». Вступ. статья А.И.Но­ви­кова. — М.: МГУП, 2002.

3.3.2. Дополнительная литература


Баранов А.Н. Введение в прикладную лингвистику: учебное пособие. – М.: Эдиториал УРСС, 2001. – 360 с.

Кобозева И.М. Лингвистическая семантика: учебник. – М.: Эдиториал УРСС, 2000. – 352 с.

3.3.3. Электронные источники информации

Интернет-ресурс авторов УМК: http://www.philippovich.ru/ — Учебно-научный кластер CLAIMM «Компьютерная Лингвистика, Искусственный Интеллект, Мультимедиа технологии».

Интернет-ресурсы:

1. http://www.compling-info.narod.ru/ — Литература по Компьютерной Лингвистике книги, статьи, ссылки в Рунете

2. Dialog-21.ru — Международная конференция Диалог

3. Philology.ru — Русский филологический портал

4. Proling.iitp.ru — Лаборатория компьютерной лингвистики Института проблем передачи информации РАН

5. Ruscorpora.ru — Национальный корпус русского языка

6. Philol.msu.ru/~lex/library.htm — Лаборатория общей и компьютерной лексикологии и лексикографии МГУ.

7. RCO.ru/article.asp — Публикации Russian Context Optimizer (Технологии анализа и поиска текстовой информации)

8. AOT.ru — Проект АОТ (Автоматическая Обработка Текста)

9. dict.buktopuha.net — Словари русского языка для скачивания

10. LingvoDA.ru — Ассоциация лексикографов Lingvo

11. http://uisrussia.msu.ru/linguist/_B_comput_ling.jsp — Научно-образовательный портал "Лингвистика в России: ресурсы для исследователей"

12. http://company.yandex.ru/class/courses.xml — учебные материалы по вопросам компьютерной лингвистики.

Раздел 4. Материально-техническое обеспечение дисциплины

4.1. Список учебно-лабораторного оборудования

Теоретические и практические занятия должны проводиться в специализированной аудитории, оснащенной современными персональными компьютерами и программным обеспечением в соответствии с тематикой изучаемого материала. Число рабочих мест в аудитории должно быть таким, чтобы обеспечивалась индивидуальная работа студента на отдельном персональном компьютере. Аудитория также должна быть оснащенной современным компьютером с подключенным к нему проектором с видеотерминала на настенный экран, или иным аналогичным по функциональному назначению оборудованием.

4.2. Программные, технические и электронные средства обучения и контроля знаний слушателей


Программные пакеты:MS Office: MS Word 2000;

Специальное информационное и программное обеспечение: Интерлекс.


Раздел 2. «РАБОЧАЯ ПРОГРАММА КУРСА» 15

Раздел 1. Организационно-методический 15

1.1. Место курса в образовательной программе 15

1.2. Цели и задачи курса 15

1.3. Требования к уровню освоения курса 15

1.4. Формы контроля по курсу. Критерии оценки знаний, умений, навыков 16

Раздел 2. Содержание курса 16

2.1. Организационно-методические данные курса 16

2.2. Тематический план курса 17

2.3. Содержание курса 17

2.4. Самостоятельная работа слушателей 18

Раздел 3. Учебно-методическое обеспечение курса 19

3.1. Список вопросов для подготовки к экзамену 19

3.2. Список практических вопросов-заданий для подготовки к экзамену 21

3.3. Список рекомендуемой основной и дополнительной литературы 21

3.3.1. Основная литература 21

3.3.2. Дополнительная литература 21

3.3.3. Электронные источники информации 22

Раздел 4. Материально-техническое обеспечение дисциплины 22

4.1. Список учебно-лабораторного оборудования 22

4.2. Программные, технические и электронные средства обучения и контроля знаний слушателей 23