на первый
заказ
Магистерская диссертация на тему: Проблемы. Обзор предметной области. Задача анализа вопроса. Методы анализа вопросов
Введение
В связи с бурным развитием информационных технологий и непрерывным увеличением объемов информации, доступной в глобальной сети Интернет, всё большую актуальность приобретают вопросы эффективного поиска и доступа к данным. Зачастую стандартный поиск с использованием ключевых слов не даёт желаемого результата, в связи с тем, что такой подход не учитывает языковые и смысловые взаимосвязи между словами запроса. Поэтому сейчас активно развиваются технологии обработки естественных языков (Natural Language Processing, NLP) и основанные на них вопросно-ответные системы (Question-Answering Systems, QAS).Вопросно-ответная система - это информационная система, являющаяся гибридом поисковых, справочных и интеллектуальных систем, которая использует естественно-языковой интерфейс. На вход такой системе подаётся запрос, сформулированный на естественном языке, после чего он обрабатывается с использованием методов NLP, и генерируется естественно-языковой ответ. В качестве базового подхода к задаче поиска ответа на вопрос обычно применяется следующая схема: сначала система тем или иным образом (например, поиском по ключевым словам) отбирает документы, содержащие информацию, связанные с поставленным вопросом, затем фильтрует их, выделяя отдельные текстовые фрагменты, потенциально содержащие ответ, после чего из отобранных фрагментов генерирующий модуль синтезирует ответ на вопрос.
В качестве источника информации QА-система использует либо локальное хранилище, либо глобальную сеть, либо и то и другое одновременно. Несмотря на явные преимущества использования Интернета, такие как доступ к огромным, постоянно растущим информационным ресурсам, с этим подходом связана существенная проблема - информация в Интернете неструктурированна и для её корректного извлечения необходимо создание так называемых "оберток" (wrapper), то есть подпрограмм, которые обеспечивают унифицированный доступ к различным информационным ресурсам.
Современные QА-системы разделяют на общие (open-domain) и специализированные (closed-domain). Общие системы, то есть системы, ориентированные на обработку произвольных вопросов, имеют достаточно сложную архитектуру, но тем не менее на практике дают достаточно слабые результаты и невысокую точность ответов. Но, как правило, для таких систем более важным оказывается степень покрытия знаний, нежели точность ответов. В специализированных системах, отвечающих на вопросы, связанные с конкретной предметной областью, напротив, точность ответов зачастую оказывается критическим показателем (лучше вообще не дать ответа на вопрос, чем дать неправильный ответ).
Оглавление
- Введение- Проблемы
- Обзор предметной области
- Задача анализа вопроса
- Методы анализа вопросов
- Символьные шаблоны вопросов
- Синтаксические шаблоны вопросов
- Статистика употребления слов в вопросах
- Оценка методов анализа вопросов
- Создание тестовой коллекции вопросов
- Метрики
- Результаты простого эксперимента Вывод
- Список литературы
Список литературы
2. Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского семинара РОМИП'2006. СПб.: НУ ЦСИ, 2006, 274 с.4. Burger, J. и др. Issues, tasks and program structures tо roadmap research in question & answering (Q&А). NIST DUC Vision and Roadmap Documents, 2001. URL: http://www.nlpir.nist.gov/projects/duc/roadmapping.html
7. Поисковая система AskNet.ru [Электронный ресурс]: Перечень вопросов, поддерживаемых системой AskNet для проведения семантического поиска. URL: http://www.asknet.ru/Technology/ListOfQueryru.htm (дата обращения: 27.11.2009).
. Азарова И. В. и др. Разработка компьютерного тезауруса русского языка типа WordNet // Доклады научной конференции "Корпусная лингвистика и лингвистические базы данных" / Под ред. А.С. Герда. СПб., 2002. С. 6-18.
9. Semantic Analyzer group blog [Электронный ресурс]. URL: http://semanticanalyzer.info/
или зарегистрироваться
в сервисе
удобным
способом
вы получите ссылку
на скачивание
к нам за прошлый год