Общественно-политическая газета Иркутской области
Выходит по понедельникам

Слова, в которых можно утонуть

07 ноября, 2023

Проект Иркутского государственного университета «Научные субботники» продолжает работу. 28 октября автором лекции стала кандидат филологических наук, доцент кафедры русского языка и общего языкознания факультета теоретической и прикладной филологии ИФИЯМ ИГУ Александра Айсанова. А тема лекции была сформулирована с попыткой заинтриговать слушателя – «Зачем нам два миллиарда слов: лингвистический корпус как инструмент исследователя».

Что такое корпус и почему он не библиотека

Александра Айсанова начала свой рассказ с пояснения: речь пойдет не об открытиях в лингвистике, а об инструменте, который позволяет эти открытия совершать, – лингвистическом корпусе. Чтобы понять, для чего нужен корпус, лектор предложила ответить на несколько вопросов. Например, сколько раз в произведениях Михаила Булгакова встречаются слова «мастер» и «мастерство»? Этот интерес может быть как праздным – у поклонников творчества писателя, так и практическим – у исследователей или преподавателей.

Сейчас, с распространением компьютеров и полных текстов многих произведений в интернете, сделать это довольно просто – многие программы справляются с такой задачей за считаные секунды. Но допустим, что перед нами стоит более сложная задача: понять, какую оценку выражает слово «амбициозный» – позитивную или негативную? Попытка воспользоваться одним из популярных поисковиков в интернете выдаст набор толкований, более или менее бесполезных. И вы сможете выбрать одно из них, более или менее ошибочно.

Еще более сложный вопрос: какая версия слова употребляется чаще – «кед» или «кеда»? Оба варианта допускаются, но какой вариант предпочитает большинство? Какой вариант выберут люди того или другого возраста, проживающие в том или ином регионе? Есть литературная норма языка, и есть реальная практика, сложившаяся в разных кругах общения и разных слоях населения. И хотя наши ожидания не всегда совпадают с реальностью, лингвистический корпус дает ответы на все поставленные вопросы.

Что же такое лингвистический корпус? В первую очередь это набор текстов, объединенных по какому-либо признаку. Сейчас все чаще это представленный в электронном виде (что дает доступ к нему огромному количеству людей) унифицированный, структурированный и размеченный массив языковых данных, предназначенный для решения исследовательских задач.

В чем разница между корпусом текстов и электронной библиотекой? В библиотеке тексты рассматриваются как законченные произведения. В лингвистическом корпусе те же тексты рассматриваются как образцы. Библиотека содержит только библиографические и историко-культурные данные. В корпусе присутствует обязательная лингвистическая разметка. В библиотеке текст обязательно должен быть полным. В корпусе имеет значение не полный объем текста, а его репрезентативность. То есть для корпуса не имеет значения культурная ценность текста, важно то, как мы говорили или говорим в определенный момент времени.

– Текст, который мы отбираем для корпуса, должен показать, как функционирует язык в определенный период, – пояснила Александра Айсанова.

Если в корпус отобрать много художественных текстов, но слишком мало публицистических, официальных, деловых и даже бытовых, корпус будет нерепрезентативным. То есть современный корпус русского языка, как это ни печально, должен включать в себя и тексты из социальных сетей, пусть они и выглядят как ссора криминальных элементов с низкой социальной ответственностью. Для того чтобы корпус стал полноценным рабочим инструментом, нужна лингвистическая разметка – описание текста через специальные метки, позволяющие найти языковые единицы. В прошлом это чаще называли «аннотацией», сейчас более понятным будет слово «теггинг».

1у.jpg

Они были первыми

Чтобы корпус работал, нужна еще поисковая система (так называемый корпусной менеджер), устроенная по тем же принципам, что и наиболее распространенные интернет-поисковики. Первые электронные корпуса были созданы уже довольно давно – это был «Брауновский корпус» в Университете Брауна в США в 1960-е годы и «Упсальский корпус» в Швеции в 1980-е. В этих системах не было разметки, и состояли они примерно из 1 млн словоупотреблений, но для своего времени это был прорыв. До сих пор 1 млн слов – это своего рода планка, означающая, что перед исследователем хороший, пригодный для работы корпус.

Тут стоит сказать, что европоцентризм российского образования сыграл с лектором печальную шутку. Около двух тысяч лет подряд китайские лингвисты развлекались тем, что один из них произносил цитату из Конфуция, а следующий должен был произнести другую цитату, которая начиналась с последнего слога из первой цитаты. Такое развлечение, предполагающее как раз абсолютно полное знание огромного корпуса конфуцианской литературы, могло продолжаться часами. Российский историк-китаевед Сергей Дмитриев называет эту практику «игра в города на стероидах», что кажется вполне справедливой оценкой. А теперь представьте, что у китайцев не было никаких электронных устройств – только тренированная память, способная мгновенно перебрать чудовищное количество слов и выбрать из них нужное.

Национальный корпус русского языка разрабатывается отечественными лингвистами и программистами с 2003 года, его можно найти в интернете, и он является общедоступным инструментом. (Кстати, складывается впечатление, что слово «Национальный» в начало вставили исключительно для благозвучности аббревиатуры, иначе на конференциях лингвистов все время звучало бы «…КРЯ, КРЯ, КРЯ…»)

Сейчас он включает более 2 млрд словоупотреблений, что несколько больше, чем реально существует слов в русском языке. Слов, по оценке лектора, «несколько сотен тысяч», но одно слово «сказка», к примеру, может быть использовано десятки и сотни тысяч раз. За 20 лет работы корпус разросся до 16 тематических корпусов с разными типами разметки, охватывая практически всю историю славянской письменности от XI до начала XXI века.

2у.jpg

Анатомия русского языка

Самые крупные части русского языка – это корпуса письменной и устной речи, причем в корпусе устной речи представлен еще и мультимедийный корпус, расшифровки текстов передач и даже фрагменты видео. Из-за огромного объема данных, впрочем, встречаются ошибки, когда женщину – ведущую передачи записывают как мужчину, и так далее. Существуют корпуса литературного языка и диалектной речи, моноязыковые и параллельные корпуса (русско-английский, например). В Национальный корпус русского языка входят 26 параллельных корпусов, в том  числе и русско-бурятский, очень полезный для жителей Иркутской области.

Существуют и особые корпуса текстов определенных стилей, жанров и форм, отражающих не литературную норму, а реальное употребление слов. В поэтическом, газетном и корпусе социальных сетей слова могут быть с какими угодно ошибками и искажениями, а для обучения школьников или иностранце русскому языку существуют специальные тщательно выверенные корпуса, из которых можно черпать примеры и образцы.

В качестве примера разных корпусов Александра Айсанова привела выражение «катать вату», означающее «оттягивать какое-то действие, бездельничать». Во всех социальных сетях тематический корпус нашел всего три примера использования, а в основном корпусе – один, и тот в литературном произведении, где речь шла об одном из способов добыть огонь без спичек или зажигалок.

Борис Самойлов, «Байкальские вести»

Окончание следует.

 

Поделитесь новостью с друзьями:

Комментарии