Искусственный Интеллект, лекция от 04 декабря
Материал из eSyr's wiki.
Предыдущая лекция | Следующая лекция
Довод в пользу общения с системой на ест. языке --- на начальном этапе работы с системой человек иначе, чем на ест. языке, задачу сформулировать не сможет.
Нельзя путать естественность общения человека с компьютером и общение на естественном языке.
Когда решаем, стоит ли разраб. инт. на ест. языке, нужно проверить, сможем ли обеспеечить комфортные условия. Никогда не следует слепо следовать моде, даже, если выполняете поручения начальства, нужно выбирать решения обоснованные.
Много раз лектор говорил про всякие моды мифы. Сейячас уже инновации в рекламе постепенно вытесняются термином нанотехнологии.
Есть ситуации, когда от естественного языка никуда не деться, но это тогда, когда ест. язык --- объект обработки, например, полнотекстовый поиск. Иногда эти тексты надо обабатывать и обрабатывать достаточно содержатель,например, в какую положить кучку, выдавать-не выдавать, в какомо порядке расположить... В нешняя постановка задачи заставляет работать с текстом на естественном языке.
Крайне желательно, чтобы система, обраб. тексты на ест. языке могла рабьотать в условиях открытости своей БЗ на ест. языке: если попадается какая=то констркция, которая не описывается в словаре, грам. правилами, встречается необычный порядок слов, нужно, чтобы система могла дааптриваться к подобного рода новшествам и что-то из этого запоминать.
Лектор рассказывает про лингвистический процессор Адамант (Адаптивный ... Анализатор Текста). Пример, как примерно идёт наализ текста:
- Пользователь называет свою фамилию, указывает режим работы, тестовый, и система печатает на экране. система должна напечатать фрейм, отражающий смысл вводимого сообщения. Дальше система просит установить степень подробности --- высокий. Программа может задавать вопросы в процессе анализа текста. Предложение:
Мальчик играет с кошкой на балконе. Слово «балкон» система не знает. Как идёт обработка текста: смотрится первое слово, пытается разбить на морфемы, на основу и флексию. Первое слово --- никаких неоднозначностей --- одушевлённое существительное именительный падеж; дальше попаается слово играет, оно интересное, так как является предикатом; появление глагола означает, что рядом появляется подлжеащее, ему характерное. Этому соответствует синт. фрейм, описывающий модель управления лаголом. Есть три варианта глагола: играть1 --- кто играет, с кем играет, во что играет, играть2 --- кто, с кем, играть3 --- с огнём...
Обрбатывая незн. слово балкон, сематически она предполагает, что сущ. относится к классу «место». Система уточняет у пользователя, какого рода существительное. После установки склонения выдаётся интерпретация:
=играть2= (играть) =Субъект=: мальчик =Объект=: кошка
Содержание |
Время=: =сейчас=, =всегда=, =иногда
Вид=: =действие выполняется=, =действие характерно
=Место=: балкон (на)
Пользователь говорит правильно, и инф. сохраняется в текущем сеансе: На БЭСМ-6 первый раз анализ идёт 3.5 секунды, повторно --- 2 секунды.
Мальчик играл с другом в среду (слово среда системе неизвестно)
играть1
субъект: мальчик партнёр: друг объект: среда
Мальчик стригёт кузявую бутявку на балкне
Система делает замечание о том, что в слове «стригёт» должно быть чередование (стрижёт)
стригёт
субъект: мальчик
Если мы занимаемся голубоким наализом текста, то пересекаемся с ИИ, иначе, при поверхностном анализе --- нет (например, при анализе автораства сравнивать распределение частоты слов).
Задача автоматической обработки текстов (АОТ)
Английский термин более удачен, поскольку употребление слова текст имеет некоторые нежелательные ньюансы (Natural Language Processing, NLP). АОТ как бы исключает обработку звучащей речи, NLP --- нет.
Задачи:
- Машинный перевод. Самый старый, самая богатая и неоднозначная история. Развитие шло волнообразно. Первые эксперименты были проведены ещё в 50-е годы (эим ещё Л. Н. Королёв занимался, он любит об этом вспоминать). В Америке известен ... эксперимен, в 1954 году была посторена программа, которая имела словарь объёмом несколько сотен слов, нсколько дестяков грам. правил, были два языка --- русский и английсикй, и она переводила с одного языка на другой. Переводила не очень хорошо, но переводила. система известна некорректным переводом текста: плоть слаба, но дух силён. После двойного перевода: мясо испортилось, но водка крепкая.
Проблемы машинного перевода.
Для того, чтобы осуществить качественный переыод, нужно понимать, что переводишь. Качественный перевод возможен только в очень узких предметных областях, тогда, когда система имеет достаточную наинку и БЗ, описыавюащую предментую область. Это подтверждается наличием систем, например, в Канаде, где два офиц. языка. Была построена система, которая переводила профессиональные сводки погоды для лётчиков, водителей кораблей. Это подробные и весьма объёмные тексты. Переводила система (FOG) очень качественно. Система обладала хорошим свойством: система могла догадываться, что не может перевести текст и оставляла фрагменты для ручного перевода.
Какие могут быть альтернативы: накопить корпусы параллельных текстов; использовать системы, которые помогают делать перевод.
Общая тенденция: предполагается, что в 21 веке глубина проработки описания языка будет возрастать.
Задача: работа на ограниченном языке (Controlled languages)
когда в конце 20-го века крупные междунар. корпорации начали создавать филиалы в странах Европы и бывшего СНГ, оказалось, что там есть сложившиеся коллективы, но они привыкли работать с русскоязычной документацией, с англ. документацией они работаь не могли. И тогда вспомнили историю: когда Англии надо было общаться в колониях, то надо было общаться с населением, то придумали Basic English --- сильно урезанный язык. Возникла идея: взять тех. документацию, написанную на непонятном американском английском и преобразовать в тексты более понятные. С лектором был такой случай: из Сан-франциско в париж летят русский и немец, и перелёт занимает часов 8, часть этого времени проговорили на английском языке. В связи с этим возникла задача: компьбютер текст читает и выделяет то, что могло бы быть непонятным для человека, для которого амер. англ. не является родным. Задача решаемая, поскольку можно сузить проблемную область и сделать систему, и понятно, как задача решается.
Задача генерации текстов
Можно рассматривать как кусочек машинного перевода.
Для системы FOG был сделан модуль для генерации текста на основании син. данных.
Здача: вот есть у нас огромное количество программ, есть спецификации программ, которые написаны на английском, есть комментарии, которые написаны на англ. Нельзя ли на основе этой информации вытащить инструкцию для пользователя, для системного администратора, получить в виде текста.
Классиф. методов ... текста --- в конспекте.
Задача локализации текста.
Есть ПО, созданное в амер. окружении. Нужно, чтобы ПО продавалось в других местах. Для этого нужно его локализовать: перевести меню, словари, ... В какой связи возн. автом обраб. текстов: частично локализацию можно автоматизировать. Во-первых, весьма узкая область, во-вторых --- простые тексты. Есть проблемы: перевод идиом. Когда говорим о работе с окнами, то нормально, в то же время Windows не называют «Окна».
Задача: создание текстовых документов, поддержка и операции редактирование, исправление ошибок
Основные задачи здесь решены, тем не менее, распространённые системы работают слабо.
Казус: слова м. р., кончающиеся на «-изм» не имели в словаре множественного числа. Лектор встретился с разработчиками и оказалось, что велели убрать, так как встречались марксизмы и ленинизмы. Знакомый лектора сказал: «идиотизмам нет предела»
Задача: поиск информации
Хотелось бы, чтобы поиск инф. проводился более качественно. Необходимо найти документ в ответ на запрос. Иногда есть неккоторый классификатор, и решается задача --- некоторое множество текстов разваливается на кучки (в простейшем случае --- спам/не спам)
Частный случай --- задача фильтрации.
Задача создания реферата текста.
Построение объекта, связанного с осн. объектом, реферата, который отражает содержание документа и меньше по объёму. Фактически, это задача построения на соновании внутр. построения построить текст на том же языке, но удовлетворяющего условию коэф. сжатия.
Существуют системы квазиреферирования, которые берут часть текста (например, первые предложения абзаца, выбор по наличию часто встречающихся слов).
01 02 03 04 04 06 ... -3 -2 -1
Календарь
вт | вт | ср | вт | ср | вт | |
Сентябрь
| 04 | 11 | 12 | 18 | 19 | 25 |
Ноябрь
| 20 | 27 | ||||
Декабрь
| 04 |
Материалы
Фактический материал | Вопросы на экзамене