Леонид Иомдин

Русский язык с Иваром Максутовым (16+) Ивар Максутов
Компьютерная лингвистика

16:05 Ноя. 30, 2014

Компьютерная лингвистика

В гостях

Леонид Иомдин

Кандидат филологических наук, исполняющий обязанности заведующего лабораторией компьютерной лингвистики ИППИ РАН им А.А. Харкевича, профессор кафедры компьютерной лингвистики Института лингвистики РГГУ, преподаватель Школы анализа данных Яндекса

И. МАКСУТОВ: Добрый день. У микрофона Ивар Максутов. Как обычно, в это время, мы начинаем передачу о русском языке. Сегодня будем разбираться с непростой историей, с тем, как языку учат машин. Точнее, как мы используем различные методы компьютерного анализа данных для работы с языком. Как это было в прошлом, как это происходит сейчас, и какие трудности вызывает русский язык в работе компьютерных лингвистов или в компьютерной лингвистике. Чтобы с этим вопросом разобраться, сегодня в гостях у меня Леонид Иомдин, кандидат филологических наук, исполняющий обязанности заведующего лабораторией компьютерной лингвистики Института проблем передачи информации Академии наук. Также профессор кафедры компьютерной лингвистики Института лингвистики РГГУ и преподаватель школы анализа данных Яндекса. Насколько я знаю, Леонид ещё преподаёт в Физтехе. Думаю, много ещё где. Леонид, здравствуйте.

Л. ИОМДИН: Добрый день. Действительно, сегодня хотелось поговорить про компьютерную лингвистику и про то, как компьютерная лингвистика относится к русскому языку и заодно, как русский язык к ней относится.

И. МАКСУТОВ: Давайте начнём. Компьютерная лингвистика не понятна может быть для большинства, что за зверь такой. Что это такое, зачем вообще в лингвистике? Кажется, лингвисты – это люди, занимающиеся словами, буквами, опросы проводящие. У нас здесь регулярно приходят лингвисты, языковеды, филологи, которые занимаются языком непосредственно живым. Зачем Вам компьютеры то?

Л. ИОМДИН: Надо сказать, что компьютерная лингвистика в этом году отмечает что-то вроде юбилея. Можно считать, что ей исполнилось 60 лет. Она началась, как принято думать, с так называемого Джорджтаунского эксперимента по машинному переводу. Он состоялся в Нью-Йорке в 1954 году. А точнее 7 января в день православного Рождества. Перевод этот был с русского языка на английский. Это было довольно интересно. Вызвало большой ажиотаж. Там было много народу. Люди приходили смотреть, как это машина переводит. Хотя надо себе представить, что это была за машина. Это была машина IPM 701, которая занимала пространство размером с поле для гольфа. Было огромное количество ящиков у неё. Ввод информации осуществлялся с помощью перфокарт. То есть с помощью таких бумажечек, на которых были пробиты дырочки, которые подавались туда на компьютер.

И. МАКСУТОВ: Некоторые у нас ещё помнят перфокарты. По крайней мере, люди, работавшие в научно-исследовательских институтах в советское время, помнят.

Л. ИОМДИН: Конечно. Я сам работал в таком институте долгое время и помню, какие были проблемы с этими перфокартами. Они рассыпались, они мялись. Приходилось много делать повторов. Всё это было. Правда, в этом Джорджтаунском эксперименте вход был с перфокарт, а выход, перевод, всё-таки получался на экране компьютера. Так что это уже было что-то. Он произвёл большое впечатление. Действительно, русский язык, который пользуется кириллической азбукой, для американцев очень малоизвестен, никто его не знал. И вдруг, если оказывается, что на входе какие-то русские слова, а на выходе нормальное или почти нормальное английское предложение, то это производило впечатление. Там, конечно, всё было очень просто, но, тем не менее, даже этот простой эксперимент готовился многие месяцы. Что там было в этом эксперименте? Там был небольшой словарик из 250 русских слов, и каждое слово переводилось пословно на английский язык почти без всякого контекста. Берётся какое-нибудь слово в творительном падеже. Величина угла определяется отношением длины дуги к радиусу. И вот этот вот творительный падеж без всякого мудрого решения просто переводился с помощью английского предлога by. Получалось вполне неплохо. Эксперимент удался. Он получил освещение в прессе, очень много людей заинтересовалось. Во всех американских газетах об этом писали. Газета «Нью-Йорк Таймс» вышла с большой статьёй на первой странице.

И. МАКСУТОВ: С чем был связан выбор языка? С русского на английский. Холодная война?

Л. ИОМДИН: Конечно. Язык вероятного противника. У истоков этого эксперимента стояло несколько довольно известных людей. С одной стороны это был Джорджтаунский университет, который находился в Вашингтоне, и там был такой человек Леон Достерт, очень известный переводчик. Он был личным переводчиком Эйзенхауэра, когда он ещё не был президентом, но был генералом. Он был офицером связи у Шарля де Голля в Алжире. Потом работал в Управлении стратегических служб США, что можно считать предшественницей ЦРУ. А главное, он отвечал за организацию службы синхронного перевода на Нюрнбергском процессе. Это вообще было впервые, когда была служба синхронного перевода. Она, собственно, и появилась во время Нюрнбергского процесса. Он придумал лингвистическую начинку этого эксперимента. А компьютерную начинку придумала фирма IBM. Достерту повезло, что он был хорошо знаком с первым руководителем IBM по фамилии Уотсон. Со стороны IBM там тоже очень известные люди участвовали. Например, был такой Питер Шеридан, который потом разрабатывал известный язык программирования Фортран. То есть люди были довольно важные и известные. Информация о том, что машинный перевод состоялся, вызвала огромный энтузиазм, потому что оказалось, что почти решена проблема. Раз машина смогла перевести эти десятки фраз довольно хорошо, то, наверное, и всё, что на языке будет написано, будет легко переводить.

И. МАКСУТОВ: То есть задачи казались решаемы. Перевод одного текста на другой, понимания русской речи, русского языка быстро, легко и без труда.

Л. ИОМДИН: Да, без труда и без участия человека. Очень скоро стало ясно, что это не так просто. Проблема машинного перевода не решена до сих пор, хотя прогресс огромный. Тем не менее, дело пошло. Почти сразу об этом эксперименте стало известно в Советском Союзе.

И. МАКСУТОВ: Не мудрено, если на первой полосе «Нью-Йорк Таймс» выходит такая статья.

Л. ИОМДИН: Да. Там было два человека: Дмитрий Юрьевич Панов и Алексей Андреевич Ляпунов. Дмитрия Юрьевича Панова я не знал, а Алексея Андреевича Ляпунова знал лично, поскольку учился в университете, когда он преподавал математику. Я слушал у него курс математического анализа. По-видимому, Дмитрий Юрьевич Панов даже был во время этого эксперимента в Нью-Йорке, но сейчас это уже не удаётся установить. Алексей Андреевич Ляпунов вызвал к себе свою аспирантку Ольгу Сергеевну Кулагину, и сказал ей: «Оля, давай делать машинный перевод в Москве».

И. МАКСУТОВ: До этого никакой базы, никакого проекта такого не было?

Л. ИОМДИН: Абсолютно никакого. Ни про какие компьютеры не шло и речи, когда изучался язык. Общее ли языкознание или русский язык, или иностранный язык, это всё было очень далеко.

И. МАКСУТОВ: А с чем это может быть связано? Американцы так хотели понять русских, что готовы были как-то затачивать сложную технику под это? А нам-то это было не нужно?

Л. ИОМДИН: Нет, конечно. Тоже было нужно и очень интересно. Это просто стало сразу рассматриваться как такой вызов, который американцы бросили. Перчатку, которую надо было поднять, и сделать что-то быстро в ответ. Этот эксперимент был в 1954 году, а в 1955 году появилась статья Алексея Андреевича Ляпунова и Ольги Сергеевны Кулагиной, которая рассказывала про этот эксперимент. Статья эта вышла в журнале «Природа» уже в 1955 году. Очень интересно, как это всё происходило. Ольга Сергеевна Кулагина никогда не интересовалась лингвистикой. Она, правда, хорошо знала французский язык, но и всё. Поэтому она поняла, что самой ей не справиться, и надо найти каких-то людей, которые бы ей помогали. Она пришла в МГУ на романо-германский факультет, потому что Алексей Андреевич Ляпунов предложил делать первую систему машинного перевода с французского языка на русский.

И. МАКСУТОВ: С французского?

Л. ИОМДИН: С французского языка на русский. Тем более, что Ляпунов его хорошо знал и Ольга Сергеевна хорошо знала. Она пришла на романо-германское отделение, на французское отделение точнее. Там никого не нашла. Зато нашла студента испанского отделения МГУ. Это был Игорь Александрович Мельчук, который с огромным энтузиазмом принялся за эту работу. Он в числе прочих начал заниматься машинным переводом, компьютерным переводом. Вообще говорят про машинный перевод, про компьютерный перевод и про автоматический перевод. Это всё одно и то же. Он занимался с Ольгой Сергеевной Кулагиной машинным переводом без всякой машины. Первые несколько лет они занимались тем, что они писали алгоритмы на бумаге ручкой, алгоритмы разбора русского текста или разборы французского текста. Там, например, говорилось, что представим себе, что у нас есть слово, которое является прилагательным. Оно стоит в именительном падеже множественного числа. А рядом стоит слово, которое является существительным, которое тоже стоит в именительном падеже множественного числа. Тогда надо предположить, что эти слова связаны друг с другом. Большие столы. И сразу стало ясно, что можно что сделать? Можно взять и соединить большие столы некоторой такой стрелочкой и потом строить такую структуру предложения. Это делалось очень хорошо, и многие поколения лингвистов, поколений, может, и не много, но несколько сотен лингвистов занимались тем, что продолжали такого рода исследования.

И. МАКСУТОВ: Выглядит это довольно странно. Какое состояние теоретической лингвистики, в каком состоянии она находилась, что, получается, несколько энтузиастов без какой-то специальной подготовки, математической логике, занимались подобной, довольно сложной, работой, где колоссальные ресурсы затрачивались в Соединённых Штатах?

Л. ИОМДИН: Не то чтобы колоссальные ресурсы. Там не так много было сделано. Там ресурсы были в основном машинные. А что касается человеческих ресурсов, там всё было довольно просто. И у нас было довольно просто. Теоретическая лингвистика в СССР и вообще в Европе была очень и очень развита. В частности, удавалось описать даже самые сложные системы, синтаксические, морфологические русского языка, европейских языков. Этим занимались очень известные лингвисты, такие, например, как Пешковский, или Шахматов, или Потемня, или Щерба.

И. МАКСУТОВ: Но при этом к компьютерному или машинному переводу…

Л. ИОМДИН: Они никакого отношения не имели.

И. МАКСУТОВ: Интерес они испытывали?

Л. ИОМДИН: Нет. Они даже не успели узнать, что такое компьютер. Они даже, надо сказать, что такое компьютер мы и сами узнали достаточно поздно, до этого были так называемые электронно-вычислительные машины. Слово компьютер – это изобретение конца 1970-х, начала 1980-х годов. Но и электронных машин во времена Пешковского или Шахматова не было. Но то, что они сделали, описав язык или, скажем, такой замечательный лингвист как Виноградов, который написал несколько монографий, посвящённых грамматике русского языка, всё это было очень и очень востребовано. Когда лингвисты стали заниматься компьютерным переводом, то они пользовались всеми наработками, которые в лингвистике к этому времени были. Какое-то время машинный перевод развивался на бумаге, а потом он стал развиваться гораздо быстрее. В частности Ольге Сергеевне Кулагиной удалось через какое-то время, в начале 1960-х годов построить первую в Советском Союзе систему машинного перевода, которая называлась Фрап. Французско-русский автоматический перевод. С тех пор пошло дело. Я многие годы работаю в группе, которую возглавлял академик Юрий Дереникович Апресян. Он и до сих пор работает частично в Институте проблем передачи информации в нашей лаборатории и очень много сделал для развития машинного перевода. Мы тоже занимались построением системы машинного перевода и занимаемся этим до сих пор.

И. МАКСУТОВ: Вы упомянули, что у американцев выбор перевода с английского на русский был отчасти, в значительной степени, был подкреплён холодной войной. Сами люди участвовали в такой, не знаю, разведывательной деятельности. В России поддержка машинного перевода, вообще работа машинного перевода была связана с подобной исторически, если не разведывательной, то государственной идеологической деятельностью? Или это была сугубо теоретически?

Л. ИОМДИН: Нет. Я бы не сказал, что тут была военная или политическая составляющая. Наоборот. Машинный перевод развивался у нас почти исключительно как научная задача. Задача сложная, и тем почётнее было её решить. Я не знаю.

И. МАКСУТОВ: А казалось, что должно было быть наоборот. Идея Интернационала предполагает, что для того, чтобы говорить с людьми разных народов на одном языке, чтобы передать идеи Ленина, тем более идеи Сталина, Маркса, Энгельса. Сталин то ладно, Сталина убрали, но Ленина то. Чтобы Ленина идеи передать, нужно как раз научиться всё это хорошо и качественно переводить.

Л. ИОМДИН: Да, хорошо и качественно переводить. Но с самого начала было понятно, что компьютер человека не заменит. Я дальше буду рассказывать, приводить некоторые примеры, чтобы было ясно, почему он не заменит. Человек, когда пользуется языком, у него в базе столько знаний, не только связанных с языком, но и связанных с нашей жизнью, с действительностью. Эти знания вложить в компьютер почти невозможно. Частично это можно сделать, но далеко не всё. Не думаю, что можно сказать, что компьютер поможет переводить большие массивы текстов. Вроде бы 55-томное собрание сочинений Ленина взять и перевести за несколько минут с помощью компьютера. Нет, такой задачи никогда не ставилось.

И. МАКСУТОВ: Странно, конечно. Может быть, если бы поставилась, то, может быть, больших успехов достигли бы. Кстати, к успехам. Какие успехи у советского машинного перевода? Насколько ещё при этом взаимодействие при этом между западной наукой и советской происходило? Толчком к советской компьютерной лингвистике, получается, были американский Джоржтаунский эксперимент. А дальше взаимодействие было какое-то?

Л. ИОМДИН: Конечно, было взаимодействие, но не в самом машинном переводе, а скорее в теоретических подходах. Дело в том, что в лингвистике к 1960-ым годам образовалось два довольно разных подхода. Точнее не к самой лингвистике, а к описанию структуры языка. С одной стороны была европейская традиция, идущая от Аристотеля, которую вполне воспринимали и русские лингвисты. Это такая теория, мы даже знаем её из школы, когда говорят, что предложение состоит из элементов, которые являются членами предложения. У нас есть сказуемые, есть подлежащие, есть дополнения, есть определения. Это всё можно немножко переформулировать и получить так. Вот у нас есть сказуемое, скажем, «бежит». При этом есть подлежащее «мальчик». Мы можем сказать, что слово «бежит» и слово «мальчик» синтаксически связаны. Будем говорить, что слово «мальчик» играет роль субъекта этого «бега». Ну, или действующего лица этого бега. Такая была структура. Даже можно было бы сразу сказать, что эта структура древесная. Она описывает предложения языка как некоторое такое деревце, где вместо листиков слова, а вместо веточек синтаксические связи разные. Это была одна традиция. Другая традиция возникла в Америке скорее как противовес этой традиционной европейской лингвистике. За этим стоит очень известный американский лингвист Ноам Хомский. Хомский – это его русское произношение. На самом деле в Америке его называют Чёмский, и он происходит из Российской империи. Точнее его отец был из Российской империи, а Хомский родился в Америке. Его роль огромна в этой всей деятельности. Он построил новую теорию синтаксиса. Эта теория синтаксиса отличалась от той, которая была в европейской традиции. Он поставил себе другую задачу. Обычно, когда мы говорим про язык, то считаем, что язык, это, в первую очередь, такая система для коммуникации, для общения друг с другом. На язык можно посмотреть по-разному. Хомский посмотрел на язык вот с какой точки зрения. Он считал, что язык – это множество всех правильных высказываний на этом языке, и если мы научимся строить правила, которые отсекают правильные высказывания от неправильных, то мы таким образом опишем язык, построим модель языка. Он предложил строить другую модель. Не модель, которая связана связью между словами, идущими от одного к другому, а наоборот. Он объединял группы слов в нечто цельное. Если мы говорим «маленький мальчик съел мороженое», то что у него было? Он брал и объединял слова типа «маленький мальчик» в группку, которую называл именной группой. А выражение «ел мороженое» в другую группку, которую называл глагольной группой. Поэтому у него получалось такое изображение, что имеется именная группа и глагольная группа, и потом они вместе объединяются в целое предложение. И вот так из кирпичиков он строил систему анализа предложений. Так что всё это было по-разному. Такое представление, что можно построить из кирпичиков, оно облегчается тем, что Хомский занимался английским языком. В английском языке довольно строгий и жёсткий порядок слов. Если по-русски мы можем построить предложение, где слова, которые друг к другу относятся, перемежаются другими словами. Например, можно сказать «я прочитал хорошую книгу». А можем сказать «хорошую я книгу прочитал». Ничего такого в английском языке сделать нельзя. Если мы переведём это дословно и скажем «Good I read book», «Good I book read» никто ничего не поймёт. Поэтому для европейских языков это подходило плохо, а для английского подходило лучше. Появились две разные системы описания языка. Одна из них дала толчок компьютерным студиям в Америке, а другая компьютерным студиям в России, в СССР, в Европе. Очень много этим занимались в Чехословакии. Есть пражский лингвистический кружок, который с точки зрения автоматической обработки текста очень близок к нашему. А потом началось взаимопроникновение, потому что и идеи Хомского с одной стороны, и идеи традиционной европейской лингвистики, они друг друга оплодотворяли.

И. МАКСУТОВ: Мы глубоко погрузились в историю. Это я, видимо, своими вопросами замучил, увёл куда-то в дебри того, как, собственно, развивалась компьютерная лингвистика. Мы поговорили про два разных подхода к определению структуры языка и начали говорить про то взаимодействие, которое между западной наукой и российской происходило. Как изменилась или к чему пришла компьютерная лингвистика в конце ХХ века? Можно об этом сказать?

Л. ИОМДИН: Да.

И. МАКСУТОВ: Потому что понятно, что мощности увеличились.

Л. ИОМДИН: Увеличились, конечно, не только мощности, но и производительность компьютеров. То, что занимало минуты, стало занимать секунды. То, что занимало секунды, стало занимать миллисекунды, и любая обработка текста стала гораздо более быстрой и доступной. Но это с одной стороны, с другой стороны и наука развивалась очень быстро, и после, если угодно падения железного занавеса, очень много идей было воспринято и с нашей стороны было воспринято идей, которые возникали на Западе и наши туда проникали. Так что постепенно компьютерная лингвистика стала вполне единой наукой. Вообще ведь компьютерная лингвистика – это наука, которая возникла для описания естественного языка с помощью компьютера. Машиноперевод – это только одно из приложений компьютерной лингвистики, там есть еще и другие сложные. Там есть такая вещь, как интеллектуальный анализ данных, есть интересный момент, как использование компьютеров для глубокого изучения языка. Для этого, в частности, существуют корпусы текстов. Вот мы занимаемся построением корпуса текстов, которые в отличие от такого большого корпуса текстов хорошо известного лингвистов, который называется национальный корпус русского языка, в отличие от основного этого корпуса, у нас все предложения текстов, которые входят, имеют синтаксические структуры. Надо сказать, что мы тоже присутствуем на сайте Национального корпуса русского языка. И можно там всё это увидеть. Я потом расскажу, приведу один пример того, каким образом с помощью корпуса можно получить новое знание. Но, а теперь, мне кажется, самое время перейти к проблемам уже непосредственного описания русского языка для задачи машинного перевода.

И. МАКСУТОВ: Прежде чем мы к этому перейдём, вы просто несколько раз так уверенно повторили, что вот эта вот задача или, по крайней мере, ожидание, которое происходило, появилось после Джорджтаунского эксперимента, что машина позволит переводить легко текст, скажем, коммуницировать людям легко безо всякого переводчика, она не достижима. То есть, в общем, не получится никак этого достичь. Вы прямо в этом так абсолютно уверены?

Л. ИОМДИН: Дело в том, что это такая цель, к которой мы приближаемся всё лучше и лучше, а полностью, конечно, это будет невозможно. Это всё равно, как считать, что есть такой идеальный человек переводчик, который готов переводить всё на свете. Такого тоже не бывает, но, тем более, не бывает и компьютера. Давайте посмотрим на какие-нибудь простые примеры. Чтобы понять, даже самую не замысловатую фразу, человеку нужно применить массу усилий. Давайте посмотрим на такие простые предложения. По-русски «ключ на столе». Вроде все понимают, что это значит. Если мы занимаемся переводом с русского языка на иностранный, например, на английский, то легко было бы понять, как перевести выражение ключ на столе. The key is on the table. Вроде всё просто. Key – это ключ, на – это on, стол – это table. Очень хорошо. Вроде бы всё просто. Давайте заменим это предложение, попробуем перевести выражение не ключ на столе, а ключ в столе. Вот если кто-нибудь сейчас задумается над этим предложением, то он сразу поймёт, что произошло некоторое переключение. Посмотрите какое переключение. Не во всяком столе может быть ключ. Если это обеденный стол, то трудно представить, что означает ключ в столе. А тут ещё дело осложняется тем, что слово table не может по-английски нормально означать стол, в котором нет каких-нибудь ящиков и поэтому вот этот самый предлог в, ключ в столе должен нас заставить найти другое слово для перевода слова стол. Вместо table нужно сказать desk, потом, что означает ключ в столе. Это может означать, что ключ находится в ящике стола или ключ находится в замочной скважине какого-нибудь замочка, который в столе лежит. Но в любом случае, это совсем другое, чем на столе. И вот оказывается, что такие мельчайшие вещи, которые человек легко себе понимает, я не могу представить себе переводчика, который бы затруднился перевести выражение ключ в столе. А машине это надо специально объяснять. Или вот возьмём другой пример. Ваня лежит на кровати. Ну, вроде всё понятно. Теперь попробуем сделать ту же операцию, заменить предлог на предлог «в». Ваня лежит в кровати. Ну мы увидим, что ситуация изменилась. Лежит в кровати – это значит, что укрыт одеялом, наверное, болеет, ещё что-то в таком роде. Глубоко в эту постель запрятался. Это всё нужно отразить. А чтобы всё это отразить, нужно приписать эти тонкие значения, даже не очень понятно чему. То ли глаголу лежать, то ли предлогу. Допустим, мы это сформулировали. Сказали, что предлог «в» передаёт эту глубокую поверхность, которая там, в кровати, как-то сделана одеялом. Заменим предложение. Ваня лежит на диване, очень хорошо. Попробуем теперь поставить вместо предлога «на», предлог «в» – Вася лежит в диване. И мы получим совершенно фантасмагорическую картину, которая там оказывается не параллельной. И такое происходит на каждом шагу. Вообще самая трудная проблема в компьютерной лингвистике – это проблема неоднозначности. Мы все знаем, что многие слова могут значить совершенно разные вещи. Иногда это бывает легко. Возьмем какое-нибудь слово – замОк или зАмок. И все понимают, что это совершенно разные вещи – омонимы. Но бывают гораздо более хитрые и тонкие вещи. Например, давайте посмотрим на слова «упал, упасть». Вот мы говорим «мальчик упал». Это многозначное предложение? Да вроде нет. Конечно, можно себе представить разные ситуации, когда он упал. Он мог стоять и упасть, например, с высоты. Он мог сидеть и упасть. Он мог лежать и упасть, но в любом случае, просто упал, то есть оказался внизу. Очень хорошо. У этого глагола «упасть» есть антоним «мальчик поднялся». Опять же он мог встать из положения лёжа, мог залезть наверх. Опять это одно и то же значение. Но, по крайней мере, мы зафиксировали, что глагол упасть, глагол подняться по отношению к мальчику – это такие противоположные глаголы по смыслу. Очень хорошо. Теперь давайте посмотрим другой пример. Не мальчик упал, а ручка, скажем, упала. Что значит «ручка упала»? Вроде она как мальчик была наверху, оказалась внизу. Она не могла сидеть или бежать. В принципе, упала и оказалась внизу. А есть у неё такой антоним «ручка поднялась»? По-видимому, нет. То, что это зависит от устройства мира, это одно дело, но нам надо описать глаголы «упасть» и «подняться». Хорошо пойдём дальше. Есть у нас выражение «ручка упала», можно эту ручку заменить на то, что-нибудь другое. Например, монетка упала. Вроде бы это то же самое. А если рубль упал?

И. МАКСУТОВ: Он может подняться.

Л. ИОМДИН: С одной стороны, если это монетка, то также как монетка, если это валюта, то по-другому. И опять же если монетка упала, монетка поднялась пара странная. А рубль упал, рубль поднялся, по крайней мере, с точки зрения лингвистики вещь правильная.

И. МАКСУТОВ: Для перевода это точно необходимо.

Л. ИОМДИН: Для перевода это очень необходимо. Теперь надо понять, что значит «рубль упал». Наверное, курс рубля упал. А где это значение курс сидит? В рубле, в слове упал? Это не понятно и не очень просто. Хорошо, мы продолжаем. Рубль упал или, скажем, нефть упала. Тут уже не о каком курсе речи нет. О чём идёт речь? Речь идёт о цене. Опять же где нужно зафиксировать эту цену? Не в слове «нефть», разумеется, значит, каким-то образом в слове «упала». Но у глагола упасть нет никакого такого элементика «цена». Значит каким-то образом нужно это специально рассматривать. Вроде бы хорошо нефть упала, а можно сказать бензин упал? Как-то сомнительно. Наверное, можно, поскольку это близкое.

И. МАКСУТОВ: Упал в цене.

Л. ИОМДИН: Упал в цене. Это верно. Но если просто упал, такого не получится. А можно ли сказать мясо упало или молоко упало? Очень маловероятно, что кто-то поймёт, что оно упало в цене. Можно, конечно, представить, что это какой-то ресурс вроде золота, но очень необычный. А что такое смартфоны упали? Это уже, конечно, они свалились со стола, а не то, что их цена поднялась. Короче говоря, даже для простейших вещей нужно завести очень много значений. Очень много элементов, которые позволили бы правильно отразить смысл этого предложения.

И. МАКСУТОВ: Где это возможно? Это создание множества таких правил для языка, для слов, синтаксических структур?

Л. ИОМДИН: Частично можно вести речь о правилах. Но мы можем сделать какие-то более интересные вещи. Например, составить так называемую антологию. Антология – это такая классификация понятий. Эта классификация понятий даже не классификация слов. Классификация каких-то таких универсальных явлений языка. И вот с помощью такой антологии можно сделать очень многое. Такое, что лингвистам было до сих пор не доступно. Я, кстати, хотел сказать, что современные системы машинного, которую каждый может увидеть сейчас, они очень развиты. Те системы, которыми мы занимались, они основывались на разных правилах. Мы брали предложение, потом строили его структуру разной глубины и потом на уровне структур переходили от одного языка к другому. Это система, основанная на правилах, а сейчас, в основном, используются системы, которые работают на совершенно других принципах. Они работают на принципе статистики. О чём идёт речь? Вот если открыть сайт translate.yandex.ru, то мы увидим, что там имеется система перевода или translate.google.ru есть ещё. Система перевода Google или есть такая система Binq, они более-менее все равноценны. Правда, у Google гораздо больше языков, но по качеству они, в общем, сравнимы. Как это всё построено? Совершенно без всякого анализа. А что делается? Берутся огромные массивы текстов на двух языка, которые называются параллельными текстами и сравнивается, скажем, текст на русском языке и текст на английском языке. Находится лучшее соотношение между кусочком русского текста и кусочком английского текста.

И. МАКСУТОВ: Статистически фактически.

Л. ИОМДИН: Статистически. Там есть очень хитрые и очень хорошие методы, которые позволяют достичь очень много. В частности, могут достичь тог, чего с помощью правил достичь очень трудно. Вот я говорил про примеры типа ключ на столе и ключ в столе. Для того, чтобы правильно это с помощью правила тратить, нужно очень много усилий затратить, а в статистике это проще. Скорее всего, предложению ключ в столе будет соответствовать что-то the key is on the desk. The key is on the table вообще не попадётся. Так что это, с одной стороны, легче, а, с другой стороны, всякого рода тонкости абсолютно пропадают и в статистике нельзя достичь того, чего можно достичь с помощью правила. Сейчас идея состоит в том, чтобы гибридизировать два подхода, чтобы можно было и правило использовать и статистические данные. Всё это делается очень хорошо.

И. МАКСУТОВ: А нет ли здесь какого-то принципиального различия в языках? То есть, скажем, что с английского на русский, допустим, легко, а с русского на английский сложнее. Вот это взаимовлияние языков, многообразие форм. То, что Вы привели пример структуру английского, которую, к примеру, позволяет разбивать на такие блоки в теории Хомского, английский язык так разбивается. А русский язык не разбивается. Нет сложностей?

Л. ИОМДИН: Конечно, есть сложности. Я не думаю, что они принципиальны. Можно говорить о подходе к анализу текста. Но в целом, если говорить о переводе, это очень мало влияет. Конечно, одни языки труднее поддаются переводу, лучше всего поддаются переводу языки близкородственные, если они очень похожи, там можно вообще глубокого анализа не делать, а переводить более или менее дословно. Не всегда конечно, но можно. Но в принципе, это более или менее одно и то же. Это для правил, а для статистики нет, потому что для статистики важно не то, насколько похожи или различны языки, а насколько у нас хорошие ресурсы. Если у нас есть огромное количество параллельных текстов между русским языком и английским или английским и немецким, русским и французским, это одно дело. Теперь представим, что речь идёт про два языка пусть даже близкородственных. Скажем, возьмём польский и чешский языки, вот таких параллельных корпусов очень мало. Людям, которые занимаются статистическим переводом, приходится пользоваться языком-посредником. Скажем, переводить с польского языка на чешский через английский. Но ясно, что в каждый такой момент происходит искажение и в результате мы можем получить бог знает что. Так что это в статистике тоже играет очень большую роль.

И. МАКСУТОВ: Исторических примеров таких толмачей было довольно много, когда оказывался какой-то язык, носители которого были переводчиками, как сирийцы между арабами и греками.

Л. ИОМДИН: Конечно, лингва франка их полным полно. Русско-китайский язык, например. Такой был в начале ХХ века. Сейчас большого прогресса достигло изучение семантики, то есть смысла языков, смысла слов, языковых выражений. Этот прогресс сейчас тем более развивается, что мы научились не только описывать значение слов, но и каким-то образом отражать их в несколько более абстрактных ресурсах, вроде той антологии, которую я упоминал. Мне бы хотелось привести один пример, каким образом антология может помощь для решения довольно сложных семантических задач. Представим себе, что мы бы хотели интерпретировать диалог, который происходит между двумя людьми. Только чтобы эта интерпретация была не человеческой, а компьютерной. Представим себе, что кто-то приглашает другого в ресторан и говорит «пойдём в рыбный ресторан». Он говорит «нет, я не пойду». Понятно, что это ответ абсолютно отрицательный. Тут и думать нечего. Теперь представим себе более сложную ситуацию. Один говорит «пойдём в рыбный ресторан», другой говорит «я не люблю рыбу». Человеку понятно, что это отрицательный ответ. Значит, он не хочет принять это приглашение пойти в рыбный ресторан. Для того чтобы машине это сделать, нужно проделать много разных шагов, которые с помощью антологии становятся доступными. Но что тут надо сделать? Надо понять, например, что если человек собирается пойти в ресторан, то он, скорее всего, пойдёт в ресторан, чтобы воспользоваться тем, для чего рестораны предназначаются. Они предназначаются для того, чтобы там есть, а не, например, для того, чтобы встретиться там со знакомым. Это с одной стороны. С другой стороны, надо понять, что такое рыбный ресторан. Это, в общем, такая, почти что идиома, потому что надо понять, что рыбный ресторан – это ресторан, в котором подают рыбу. Не бывает же у нас огуречного ресторана или помидорного ресторана, или даже молочного ресторана, хотя бывает молочное кафе. Значит, вот это надо зафиксировать. А что делать дальше? Дальше надо понять, что человек сказал. Он сказал «я не люблю рыбу». А что значит «я не люблю рыбу»? Это означает, что «я не люблю есть рыбу». Откуда это берётся? Это не в значении слова любить и даже не в значении слова рыба. В том, что рыба существует в одном из значений как такой продукт, который едят, поэтому любить или не любить рыбу означает любить или не любить есть рыбу. А если немножко даже заменим это выражение «я не люблю рыб», то уже не получится это значение, а получится скорее, что человек любит или не любит смотреть на рыб в аквариуме. И таких вещей очень и очень много. Узнать, что рыба это такой продукт можно из онтологии, где мы соответствующим образом припишем словам рыба, словам помидоры, но не помидор, словам шашлык, многим таким словам значение, что это такая еда и что любить такую еду, это значит «любить её есть». Обратите внимание, что здесь тоже есть большие тонкости. Не всякий продукт можно любить есть. Например, трудно себе представить, что можно сказать «я люблю муку» или «люблю соль». В любом случае, если кто-то любит муку или соль это не означает, что он любит её есть. Если кто-то любит кофе или чай, то он не любит его есть или жевать или что-нибудь в этом роде, а любит его пить. Хотя мы можем себе представить кофе – это такие зёрна и можно себе представить, что любит он это кофе есть.

И. МАКСУТОВ: Или листья чая.

Л. ИОМДИН: Или листья чая, совершенно верно. Точно также нельзя любить воду, но и нельзя любить огурец. Потому что огурец в единственном числе не означает еда, а еду означает только множественное число «огурцы».

И. МАКСУТОВ: Вот тут с Вами не соглашусь, любить воду вполне можно. Но это если любить пить воду.

Л. ИОМДИН: Наверное, можно.

И. МАКСУТОВ: Сегодня это уже, может быть, даже некоторый тренд – я очень люблю воду.

Л. ИОМДИН: Примерно в таком же. Дальше продолжаем с этим примером.

И. МАКСУТОВ: У нас, на самом деле, остаётся не так много времени. Я думаю, что сложность примера понятна и тонкости, которые здесь возникают при переводе даже простого такого предложения и различения. Для того, скажем, чтобы объяснить машине, в чём разница и каким образом можно перевести эту вещь. И не то, что даже перевести, а понять. А какие приложения или задачи решает машинный перевод?

Л. ИОМДИН: Машинный перевод решает задачи перевода. Компьютерная лингвистика решает ещё много других задач. Например, то, что я сейчас говорил. Это даже скорее не перевод, а такая семантическая интерпретация. Одна из таких интересных современных задач компьютерной лингвистики состоит в том, чтобы определить тональность текста. Представим себе, что есть какая-то статья, которая рассказывает про какой-нибудь товар и про этот товар что-то говорится. А хвалят его или ругают это не так легко понять, но с помощью компьютерных методов, с помощью методов машинного обучения понять это можно. Но тут, конечно, очень много статистики. И это уж, конечно, оказывается очень полезным. Это очень востребованное приложение, которое многие делают. Это и у нас, это и за границей, сколько угодно таких вещей. Но кроме того есть такие гораздо более практические задачи, которые для каждого человека интересны. Например, существует система анализа и синтеза речи. В частности, существует такая система, которая читает книги автоматически. Эти системы всё более и более популярны. Наша группа занималась тем, что с помощью некоторых дополнительных приёмов, например, с помощью синтаксического анализа, она способствовала системе чтения текстов сделать эту речь более выразительной. Каким образом это происходило? Вот текст, который нужно читать, сначала анализировался компьютером. И в результате того, что мы получали структуру предложения, мы могли определить какое в предложении слово должно быть выражено, должно быть подчёркнуто. На каком слове нужно сделать дополнительный акцент, и от этого всё гораздо лучше работало.

И. МАКСУТОВ: Спасибо большое. Спасибо, Леонид, что пришли. Спасибо за интересный разговор. У нас уже совсем не осталось времени, чтобы продолжать, хотя я вижу, что у Вас много интересных примеров заготовлено. Я думаю, что мы к этой теме можем вернуться. Напоминаю, что на сайте «ПостНаука» можно посмотреть лекции, выступления Леонида Иомдина, который был сегодня у нас в гостях, заведующий лабораторией компьютерной лингвистики Института проблем передачи информации, но и также довольно много разных довольно интересных лингвистических историй, связанных как с русским языком, так и с наукой о языке. Я с Вами прощаюсь на час. Никуда не переключайтесь, до скорой встречи.
Поделиться с друзьями
Версия для печати
Все интервью
Популярные Гости
Список всех гостей