Общественно-политическая газета Иркутской области
Выходит по понедельникам

Цифровой переворот: чудо из четырех ящиков

18 апреля, 2022

Кто сумел разместить все варианты всех слов русского языка в четырех ящиках, как это помогло создать поиск в Яндексе и с кем дружил Пьер Безухов – обо всем этом рассказала гостям лектория «Научные weekend`ы» кандидат филологических наук, доцент, директор Института филологии, иностранных языков и медиакоммуникации ИГУ Марина Ташлыкова. Тема лекции, состоявшейся 2 апреля, звучала так: Маршрутами современной филологии: «цифровой поворот».

Лингвист, победивший хаос

Важной приметой нашего времени стали различные электронные устройства, для которых в русском языке не нашлось обобщающего слова, поэтому их называют заимствованным термином «гаджеты». Мы пользуемся ими для общения, обучения, развлечения, в бизнесе и, что особенно важно, для поиска информации. Разработкой программ и приложений, благодаря которым все эти устройства работают, занимаются специалисты-айтишники. И при чем же тут филологи?

Очевидно, что филологи могут широко использовать технические возможности гаджетов и компьютеров для своей работы. Можно проводить корпусные исследования национального языка, можно использовать новейшие разработки в литературоведении, для обработки языка и машинного перевода. Но для начала нужно было научить компьютерную программу понимать слова человеческого языка.

Возьмем простой пример: пользователь ввел в поисковой строке слово «уши». Компьютер тут же предлагает ему варианты: «ухо», «ушей» и еще несколько. Казалось бы, для компьютера есть всего три знака «у», «ш» и «и». Составленные в определенной последовательности, они образуют всего одно слово, и за рамки этого знания машина выйти не должна. Не все это знают, но для ученых загадка: как люди понимают, что за тремя знаками и одним словом стоит множество вариантов, включая все падежи и числа? Если набрать в поиске имя собственное, например Ванюша, то машина выдаст еще большее разнообразие, включая всех Иванов со всеми возможными отчествами. Кто научил программу в ответ на имя Тата выдавать биографию актрисы Татьяны Васильевой, а на слово «рисует» – множество слов и понятий от простого «рисовать» до многогранного «живопись»?

Возникает три вопроса: откуда машина знает все эти варианты, кто ее этому научил и чему, собственно говоря, «этому»? Не надо забывать, что собственный язык компьютера – это сочетание всего двух знаков: 0 и 1. При этом в естественных языках, в отличие от компьютерного, нет никакой видимой логики. Если в предмете есть логика, учиться легко. Если логики (очевидной) нет, то есть «дуб – дубы», «стол – столы», но в то же самое время в том же самом языке «огурец – огурцы», а не «огурецы». Компьютерная программа при этом не просто не ошибается, она практически любому из нас может при необходимости подсказать правильный вариант трудного слова.

Происходит это благодаря работе академика Андрея Анатольевича Зализняка (1935–2017). Этот выдающийся лингвист знал большинство европейских языков и сделал для отечественной науки больше, чем целые институты. В 1952–1957 годах он учился в МГУ и, еще не окончив учебу, получил приглашение на стажировку в Сорбонну. В 1957–1958 годах он проходил стажировку в Париже и начал преподавать русский язык. Перед ним встал вопрос: как объяснить человеку, что нужно говорить «пирог – пирогов», но «пирожок – пирожков», а не «пирожоков»? Работая над этой проблемой, Зализняк занялся математическими методами в языкознании и стал одним из руководителей семинара по математической лингвистике на механико-математическом факультете МГУ.

1у.jpg

По итогам работы во Франции Зализняк издал «Краткий русско-французский учебный словарь», а в 1965 году защитил кандидатскую диссертацию на тему «Классификация и синтез именных парадигм в русском языке». Аттестационная комиссия оценила эту работу как докторскую (один из немногих примеров в отечественной науке). Через два года (Зализняку едва исполнилось 30 лет) он издал книгу «Русское именное словоизменение», а в 1977 году – «Грамматический словарь русского языка». Благодаря именно этому словарю стал возможен русскоязычный интернет, а компьютер может понимать наши запросы.

Словарь содержит 100 тысяч слов, для каждого из которых можно построить все его формы, и он удовлетворяет всем требованиям автоматического порождения таких форм. За все время существования словаря, а это уже 45 лет, в нем нашли единственную ошибку, допущенную Зализняком. Это тем более удивительно, что вся работа была проделана вручную. Зализняк попросил в соседнем хлебном магазине четыре ящика, в каждый из которых вошло 2500 карточек. Каждому слову в этом словаре сопутствует индекс, обозначающий род (мужской или женский), на какую букву заканчивается его основа (например, 1 – твердый согласный, 2 – мягкий согласный и так далее) и как ведет себя ударение в этом слове.

Разработка этой системы позволила сгруппировать слова с одинаковыми индексами, а компьютер научили, что слово с таким индексом может изменяться только в определенном порядке – и никак иначе. Например, слово «фонарь» имеет индекс 2b. Программа знает, что в родительном падеже в единственном числе слова с таким индексом имеют окончание «я». В результате получается слово «фонаря», а при необходимости – и все другие словоформы, которых у отдельных слов может быть более сотни.

Можно проделать и обратную процедуру: по слову, введенному пользователем, понять, является ли оно формой слова русского языка (что далеко не всегда легко установить даже носителям языка), а затем понять, от какого слова эта форма произошла. Марина Ташлыкова предложила слушателям решить небольшую задачу. Даны несколько словосочетаний, среди которых только одно – осмысленное: приплыла ходила; приползло бегала; пришло ползала; прибежало плавала. В итоге реальный смысл имеет только словосочетание «пришло ползала», которое означает, что на лекцию пришла половина зала.

Действительно, помещенное в странный контекст это довольно простое выражение стало ловушкой для большинства слушателей. Надо ведь понять, что это не глагол (женский род, единственное число, прошедшее время), а существительное, притом составленное из двух слов – «половина» и «зал». На основе словаря Зализняка в 1977 году Аркадий Волож и его коллега Илья Сегалович создали морфологический анализатор, который успешно решал эту задачу. Программа была настолько эффективной, что ей хватало вычислительных возможностей компьютеров 1970–1980-х годов и оперативной памяти 640 килобайт.

«Алиса, включи таймер»

Научить компьютер понимать письменный текст удалось, но как известно, математики при помощи лингвистов уже продвинулись дальше – сейчас гаджеты понимают и обращенную к ним устную речь. Многочисленные голосовые помощники не только правильно понимают слова и совершают указанные им действия, они понимают людей с разными голосами, акцентами и другими особенностями речи.

Вернемся к примеру с фонарем. Если просто отбросить мягкий знак и добавить в конце букву «я», то в письменном тексте все будет понятно, а в устной речи останется проблема ударения. В начальной форме оно падает на «а», в измененной – на «я». В одних словах при изменении слова ударение переходит с корня на окончание, в других – нет. Эту задачу позволяет решить корпус русского языка, над которым тоже работал Андрей Зализняк. Корпус – это информационно-справочная система, основанная на собрании текстов в электронной форме, содержащая более одного миллиарда словоформ.    

В прошлом, до создания электронного корпуса, лингвист, поставивший себе задачу изучения какого-либо слова или словоформ, должен был читать одну за другой множество книг, попутно выписывая на карту все обнаруженные им формы интересующих его слов – например, «угораздило», «угораздит» и так далее. Если представить себе, что средних размеров повесть – это 20 тысяч слов, то на анализ сопоставимого с корпусом объема данных каждому лингвисту нужно бы прочитать 50 тысяч книг.

Далее наступал период работы, который лингвисты называют интроспекцией, то есть углубленного изучения собственных представлений о проблеме. Например, можно ли считать синонимами слова «угораздило» и «умудрился»? Кому-то кажется, что да, кому-то – что нельзя, и ключевым становится именно этот момент «кажется». Далее лингвисту приходилось проводить опросы, обращаться к трудам предшественников и ставить различные эксперименты. Сейчас можно зайти на сайт корпуса русского языка в раздел «Лексико-грамматический поиск» и ввести слово «умудриться». Машина выдаст более 1700 примеров, которые можно изучать и обдумывать.

Чтобы такое стало возможно, сотрудники Института русского языка имени А.С. Пушкина вместе с «Яндексом» отобрали тексты, отвечающие требованиям представительности, репрезентативности и сбалансированности – то есть отражают все сферы русского языка, включая художественные и научные тексты, газетные публикации и местные говоры, сленг пользователей интернета. Собрание текстов включает разные жанры и разных авторов, поэтому, помимо основного корпуса, при необходимости можно искать по подразделам: синтаксическому, газетному, диалектному, устному, поэтическому и так далее. Благодаря тому, что в корпус включены оцифрованные тексты, написанные с XVIII по ХХ век, включая частную переписку, можно найти и устаревшие, и вышедшие из употребления слова. В «мультимедийном» разделе собраны даже видеофрагменты, отражающие внутреннее состояние человека, соотнесенные с текстом, который он произносит при этих жестах.

Функция поиска позволяет ответить тем, кто рассуждает о «гибели языка» при малейших попытках внести изменения в правила и нормы русского языка. Общеизвестный пример – «кофе» мужского рода или среднего? Система поиска в корпусе русского языка позволяет найти слово «кофе» в сочетании с прилагательным в любом падеже, но среднего рода. Программа тут же выдает множество примеров использования «кофе» в среднем роде с указанием автора – писатели Чуковский, Гуль, Алданов, Нагибин и Бунин, философ Лосский, кинорежиссер Тарковский и многие другие авторы, которых трудно заподозрить в неграмотности. А первый пример – в сочинении неизвестного автора, датированном 1783 годом.

Дополнительная польза от корпуса – возможность найти и подсчитать количество упоминаний каждого слова. Самое частое в русском языке – союз «и» (35 802 на один миллион слов), на втором месте – предлог «в» (31 374), далее идет частица «не» (18 028), далее предлог «на» (15 867), и лишь на пятом месте местоимение «я» (12 684). Что дают эти цифры? Например, возможность автоматически проверять орфографию. Слово «блогер» встречается в корпусе 65 раз, а «блоггер» всего 19. Никакого твердого правила о том, как писать это слово, нет, а в «Русском орфографическом словаре» 2018 года зафиксирована форма «блогер» – и это значит, что словарь следует наиболее частотной форме. Со словами «риэлтор» (303) и «риелтор» (108) ситуация обратная – словарь предлагает менее популярное «риелтор». То же самое произошло с «ремейком» (большинство авторов предпочитает «римейк»), а вот «сандвич» (156) и «сэндвич» (263) одинаково допустимы. 

Частотный анализ позволяет заметить еще одну важную вещь: всего четыре слова («и», «в», «на» и «не») дают в сумме 101 071 слово на каждый миллион. То есть четыре слова – это 10 процентов практически любого текста на русском языке. Чтобы понимать 20 процентов текста, к первым четырем надо добавить еще 13 слов; чтобы понимать 30 процентов, надо знать 46 слов; 40 процентов – 132 слова. Есть подобные подсчеты для других языков, и все это позволяет создавать словари и строить программу обучения иностранным языкам.

О болтунах и манипуляторах

Корпус русского языка избавляет нас от многих споров и сомнений, находя слова, кажущиеся некоторым из нас жаргонными, в произведениях авторов XIX века. Один человек должен был потратить, наверное, всю жизнь, чтобы найти этот случай, а корпус, который Марина Ташлыкова сравнивает с телескопом в астрономии, позволяет снять все сомнения. Корпус – это те самые «большие данные», которые позволяют историкам, лингвистам, философам и даже борцам с экстремизмом искать и находить нужную им информацию, анализировать состояние общества и даже, может быть, прогнозировать будущее.

Основанные на тех же принципах системы в различных НИИ и вузах позволяют увидеть, например, все взаимоотношения абсолютно всех персонажей «Войны и мира» Льва Толстого. Простая и понятная визуализация показывает, например, что Пьер Безухов со всеми своими «соседями» по роману поддерживал дружеские отношения, а другая страница даст возможность рассмотреть все перемещения Андрея Болконского по Европе и России.

– Я сторонник эволюции, но «цифровая революция» дала нам такие инструменты, такие возможности получения объективных данных, которые нельзя переоценить. Мы вышли за пределы эпохи, когда можно было говорить «мне кажется» или «на мой взгляд». Так можно говорить, если за ними стоят прочитанные тексты – тысячи и тысячи. Если вы этого не сделали, вы болтун и манипулятор. Все, что мы сказали и написали, остается на века, поэтому нужно, как говорится, постараться не испортить себе некролог, – сказала в завершение лекции Марина Ташлыкова.

Записал Борис Самойлов, «Байкальские вести».

На фото culture.ru.

На фото: Андрей Зализняк

 

Поделитесь новостью с друзьями:

Комментарии