Башкирский стих XX века. Корпусное исследование

Борис Орехов

Представлены результаты всестороннего количественного исследования башкирской системы версификации в XX веке. С использованием современных статистических инструментов подвергаются анализу все уровни организации стихотворного текста от фоники до лексики и грамматики, с особенным вниманием к метру и ритму. Количественные данные получены на корпусе текстов 103 башкирских поэтов общим объемом в 1,77 млн словоупотреблений. Анализ предварен подробным обзором науки о тюркском стихе начиная с 1950-х годов. Утверждается, что основную роль в башкирском стихосложении XX века играют силлабические формы фольклорного происхождения узун-кюй и кыска-кюй, первая из которых специфична для поволжско-кыпчакского слогосчитающего стиха. Приводится подробное сопоставление башкирского стиха с киргизским. Книга завершается примерами поэтических текстов на башкирском языке, сгенерированных с использованием искусственных нейронных сетей.

Оглавление

* * *

Приведённый ознакомительный фрагмент книги Башкирский стих XX века. Корпусное исследование предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

3. Башкирская поэзия XX века. Характеристика корпуса

3.1. Поэтические корпуса и башкирский поэтический корпус

Материалом этого исследования стала созданная в XX веке поэзия на башкирском языке, объединённая в корпус. Корпус в том значении, которое здесь используется, — это электронная поисковая система. Поиск в ней осуществляется по коллекции текстов, а результатом поиска обычно являются контексты употребления слов или других языковых явлений, а также данные о частотности этих явлений в коллекции.

Обычно создатели корпусов стремятся к тому, чтобы текстовые коллекции были представительными, то есть достаточно большими, чтобы отражать устройство языка. В большом хорошем корпусе встретится всё, что есть в языке (слова, их значения, грамматические конструкции и т. д.).

Создатели корпусов стремятся также к тому, чтобы их корпуса были сбалансированными, то есть отражали бы реальное соотношение жанров в языке. Таким образом, если в хорошо сбалансированном корпусе какое-то слово (или грамматическое явление) встречается чаще, чем другое слово, то это значит, что оно встречается чаще и в языке.

Тексты, помещённые в корпус, специальным образом обрабатываются, чтобы из них можно было извлекать лингвистически значимую информацию. Такая обработка называется разметкой (или аннотацией). Она позволяет искать не просто слова, но и определённые грамматические формы и другие языковые явления.

Важным свойством применения корпуса как инструмента исследования становится количественный фактор, то есть возможность получить сведения о сравнительной распространённости того, что ищет пользователь.

Помимо больших корпусов, отражающих реальность языка, существуют и специализированные корпуса, необходимые для изучения какого-то аспекта языка и культуры. Создаются диалектные корпуса (отражающие систему диалектной речи), газетные корпуса (отражающие динамичные изменения в языке последнего времени, фиксируемые газетами), параллельные корпуса (отражающие межъязыковые соответствия).

Одной из разновидностей корпуса является поэтический корпус. Такого рода система позволяет не только искать нужные слова и другие языковые явления, но и делать это с учётом специфики стихотворного текста. Скажем, в поэтическом корпусе можно найти слово в строке, написанной определённым метром, или слово в позиции рифмы.

Пионерским в деле создания поэтических корпусов стал Поэтический корпус в составе Национального корпуса русского языка21 [Гришина и др. 2009], открытый для свободного доступа в 2006 году. Поисковая система корпуса настроена так, что с её помощью можно искать слова и конструкции, учитывая при поиске метр, стопность, строфику и другие характеристики стихотворения. Коллекция постоянно пополняется, и в 2015 году её объём превысил 10 млн словоупотреблений.

В литературе есть упоминание о существовавшем в 2004 году корпусе китайских поэтических текстов эпохи династии Тан [Duanmu 2004: 47], но сейчас этот корпус недоступен. Нужно добавить также, что для приобретения статуса поэтического корпуса в полном смысле недостаточно создать поиск по электронной коллекции стихотворных текстов, важна еще и специфическая стиховедческая разметка, отражающая формальные показатели стиха и дающая возможность пользователю искать с учетом этих показателей. Была ли такая разметка в китайском корпусе, неизвестно.

Вторым в этом ряду стал Башкирский поэтический корпус22, запущенный в октябре 2013 года [Орехов 2014а]. Тексты были морфологически и метрически размечены, а поиск позволяет находить слова и конструкции в строках определённого размера.

Вскоре после Башкирского поэтического корпуса в конце того же 2013 года завершилась первая фаза работы над Корпусом чешского стиха23 [Plecháč 2015]. Все тексты получили морфологическую, метрическую и строфическую разметку, а также некоторые дополнительные, облегчающие поиск уровни аннотации (восстановление словарной формы слова, фонетическую транскрипцию). Объём корпуса складывается в основном из поэтических произведений конца XIX и начала XX века, и на 2019 год составляет 76 699 стихотворений, 2 664 989 строк и 14 592 037 словоупотреблений.

3.2. Репрезентативность и сбалансированность корпуса

3.2.1. Оценка сбалансированности

Так как дальнейшие выводы будут основаны на подсчётах и статистических методах, апробированных в корпусной лингвистике, нужно убедиться, что собранная коллекция (мы также по статистической традиции будем называть её «выборкой») отвечает требованиям репрезентативности и сбалансированности.

В корпус вошли поэтические произведения 103 башкирских поэтов, творческая активность которых приходится на XX век. Стихотворений в выборке: 17 895, их общий объём 468 456 стихотворных строк и 1,77 млн словоупотреблений. «Зачинателем башкирской советской литературы был Мажит Гафури, начавший писать в 1902 году» [Вместо предисловия 1950: 5], он (годы жизни: 1880‒1934) является самым старым автором в корпусе, и ему принадлежат наиболее ранние стихотворения коллекции, датируемые 1902 годом. Корпус доведён до 2000-х годов, последнее включённое в него стихотворение — «Көндән-көнгә бойоғамын һаман…» (2005) Мустая Карима (1919‒2005). Полный список авторов, включённых в корпус, можно найти в Приложении 1. Коллекция отражает только книжные издания поэтических произведений, в нее не попали публикации в периодике. Из стихотворений, написанных до введения в башкирской печати кириллического алфавита, в корпусе есть только те, которые были позднее переизданы в современной графике. Оригинальные публикации на арабице и латинице в качестве источника нами не рассматривались.

Можно измерить долю участия каждого автора в коллекции по трём параметрам: число стихотворений, число стихотворных строк, число словоупотреблений. Интуитивно кажется, что эти параметры зависят друг от друга, то есть если растёт один, то растёт и другой: чем больше стихотворений одного поэта появится в корпусе, тем больше принадлежащих ему строк и словоупотреблений мы обнаружим в корпусе. Эта зависимость может нарушаться в случае, если при составлении коллекции в неё попадёт небольшое число произведений одного автора, которые, однако, будут иметь аномальную длину. Проверим ситуацию в корпусе. Мы используем для этого коэффициент корреляции Пирсона. Он принимает значения от −1 до 1. Значение близкое к 1 означает высокую степень корреляции, то есть в случае, если какой-то параметр будет расти для некоторого измерения, то и другой параметр для того же измерения вырастет. Верно и обратное: падение одного параметра будет означать падение другого.

Коэффициент корреляции близкий к −1 будет означать, что рост значений для одного параметра почти наверняка будет сопровождаться падением значений для другого, иными словами, мы будем иметь дело с отрицательной корреляцией. Наконец, близкий к нулю коэффициент следует трактовать так, что в отношениях параметров между собой нет никакой системы. Измерениями в нашем контексте выступают башкирские поэты, а параметрами — число стихотворений, стихов и слов в их произведениях.

Действительно, параметры показывают высокую степень зависимости друг от друга. Наибольший коэффициент корреляции обнаруживается для числа строк и числа слов каждого поэта: 0,993. Это говорит о том, что число слов в стихе — предсказуемая и маловарьируемая величина. Число стихотворений и число строк коррелируют на 0,888, что тоже достаточно значительный показатель, а число стихотворений и число слов каждого конкретного автора — сравнительно далёкие друг от друга (что тоже понятно: стихотворения могут быть разной длины и само по себе появление стихотворения в корпусе не обусловливает непременного роста корпуса на заданное число слов), но всё равно существенно сходящиеся параметры, коэффициент корреляции между которыми равен 0,879.

Рис. 1. Типичные и аномальные значения участия авторов в корпусе

На рис. 1 изображён так называемый «ящик с усами» (boxplot), особый вид графика, используемый для характеристики выборки. Концы «усов» ящика — это границы, в пределах которых находятся допустимые, то есть похожие друг на друга значения. Верхняя и нижняя стороны прямоугольника — это так называемые квартили (25-й и 75-й процентили), линией в середине ящика служит медиана. Точки над «усами» — это выбросы, то есть аномально большие значения на фоне остальных показателей. Видно, что выбросов немного, не больше 3‒7 % от общего числа включённых в корпус поэтов. Вклад (в безоценочном, чисто количественном смысле) каждого из авторов в основном не превышает 4 % от всего объёма включенных в коллекцию текстов. Исключения — 4,15 % стихотворений Рами Гарипова и 4,5 % Кадыра Даяна. Любопытно, что если по такому параметру, как число стихотворений, значение для Мажита Гафури остаётся в пределах нормы (2,65 %), то число слов, приходящихся на долю этого автора, зашкаливает (4,14 %). Такая ситуация как раз связана с необычностью для последующей башкирской литературы используемой М. Гафури поэтической формы, подразумевающей объёмные произведения, состоящие из длинных стихов. Это канон поэзии на тюрки́, который лирика советского времени быстро преодолеет.

Другие случаи таких нарушений зависимости поможет выявить линейная регрессионная модель. В её основе лежит идея, что рост одного параметра линейно зависит от роста другого, из чего следует, что значения параметров можно предсказать. Ситуации, похожие на ту, которую демонстрирует творчество М. Гафури, будут плохо предсказываться такой моделью, и их можно будет найти по ошибке предсказания. Визуализацию соотношения модельных (прямая на графике) и реальных (точки) значений можно наблюдать на рис. 2.

Рис. 2. Линейная зависимость приходящихся на долю автора словоупотреблений от числа стихотворений в корпусе

Как раз такая ситуация наблюдается у Г. Саляма, при 70 стихотворениях его доля в словоупотреблениях составляет 34 540, хотя модель предсказывает значение около 8326 слов.

Согласно данным линейной регрессии, поэтику-антипод М. Гафури и Г. Саляма демонстрирует Р. Мифтахов. При большом числе стихотворений (544, 3,07 %) его доля слов в корпусе невелика: 26 251, это всего 1,49 % от общего числа словоупотреблений в коллекции, хотя модель предсказывает почти в два раза больше, 49 066 слов. Это говорит о том, что большинство созданных автором произведений очень короткие.

Сказанное позволяет охарактеризовать корпус как сбалансированный, то есть равномерно представляющий творчество различных поэтов, не делая акцента на идиостиле одного автора, поэтического направления или кружка.

3.2.2. Оценка репрезентативности

Оценка репрезентативности — это ответ на вопрос, как соотносится материал, использованный в этом исследовании, со всем объёмом башкирской поэзии или, говоря языком статистики, выборка с генеральной совокупностью. Вероятным путём здесь было бы сравнение индекса коллекции с библиографией опубликованных на башкирском языке поэтических произведений. К сожалению, усилия, которые требовалось бы потратить на составление такой библиографии, намного превосходят те, что были предприняты для оцифровки имеющегося в нашем распоряжении корпуса.

Так как полная библиография отсутствует, исследователь может обратиться к другим источникам: биобиблиографическим изданиям, очеркам истории литературы и поэтическим антологиям. Все они по-своему отражают топологию башкирской литературы. Так, в биобиблиографический справочник [Гайнуллин, Хусаинов 1977: 3] «включены данные о писателях, являющихся членами Союза писателей СССР, а также нескольких известных писателях, умерших до организации творческого союза». В этой книге с помощью членства в писательской организации зафиксирована институционализированная часть башкирской поэзии. Из 160 упоминаемых там персоналий только 72 являются поэтами, пишущими по-башкирски. Из них 47 присутствуют в корпусе, то есть выборка на 65,28 % покрывает представленный в справочнике перечень.

Если вхождение в Союз писателей уже представляет собой значимый фильтр, гораздо более выпукло внутреннюю иерархию истории поэзии отражают литературоведческие исследования, посвящённые конкретным эпохам, как в этом случае: «Основное содержание эпохи и подлинно национальные интересы народа выражали поэты-демократы М. Гафури, Д. Юлтый, Ш. Бабич, С. Кудаш» [Ахмадиев 1971: 24] (все они есть в выборке). В предисловии к очеркам истории башкирской литературы [История 1963] упомянуто 10 поэтов (9 из них присутствует в корпусе), в главе о поэзии октябрьской эпохи — 9 персоналий (6 из них есть в корпусе), в очерке о 1920-х годах — 13 писателей (9 из них есть в выборке), в очерке, посвящённом башкирской поэзии 1930-х годов, место уделено 11 авторам (творчество 10 из них отражено в корпусе).

Наконец, о представленности в корпусе наиболее значимых для своего времени имён можно судить по составу антологий. В книге [Поэты 1950] в переводах на русский язык собрано творчество 25 поэтов, из них 19 (76 %) присутствует в выборке. Таким образом, можно сказать, что в анализируемом корпусе собрано большинство прошедших институциональный отбор башкирских поэтов, а в отношении центральных для своего периода персоналий покрытие выборки ещё лучше и может превышать 90 %.

Другим важным для исследования параметром является датированность текстов в корпусе. Многие явления метрики проанализированы в динамике, их история прослежена с 1900-х до 2000-х годов. В этих подсчётах участвует только та часть произведений, датировка которых известна и отражена в метаданных текстовой коллекции. Эта часть составляет 7938 стихотворений, то есть 44,36 % от общего объёма корпуса. В то же время датированные тексты в целом длиннее недатированных, так что привязанная ко времени часть выборки — это 242 141 строка и 932 283 слова, то есть 51,69 % и 52,49 % всего корпуса соответственно.

Все датированные тексты распределены по десятилетиям, их соотношение представлено в таблице 2 ниже. На рис. 3 датировка стихотворений представлена более детально.

Если в отношении текстов мы видим подавляющее преимущество стихотворений, написанных в 1960-е годы, а за второе по полноте представления десятилетие соперничают 1950-е и 1970-е, то распределение строк выглядит иначе. Наибольшую долю в корпусе также имеют 1960-е годы, однако второе место делят между собой 1950-е и 1930-е, и только за ними следуют 1970-е и 1940-е. Середина века получает широкое покрытие, материал 1900-х годов имеет статус вспомогательных данных (строго говоря, стихи, написанные в это время, создаются не на башкирском языке, а на тюрки́), а объем текстов, охватывающих 2000-е годы, недостаточен для серьёзных выводов.

Таблица 2. Распределение датированного материала по десятилетиям

Рис. 3. Распределение датированного материала

Доминирование 1960-х годов в выборке не случайно. Это десятилетие действительно стало временем роста печатной продукции на башкирском языке, что справедливо связывается исследователями с повышением статуса национальной литературы: «О росте художественного качества произведений башкирской литературы 〈…〉 свидетельствует 〈…〉 быстрый рост тиража их изданий. Так, в 1966 г. Башкирским книжным издательством было издано 320 наименований книг более чем 2,5 млн. тиражом, из них 141 наименование при тираже 841 тыс. экз. на башкирском языке. Выходят пять башкирских журналов, годовой тираж которых составляет 1 млн. 350 тыс. экз., 27 башкирских газет общим ежедневным тиражом 272 тыс. экз.» [Хусаинов 1983: 210].

Оглавление

* * *

Приведённый ознакомительный фрагмент книги Башкирский стих XX века. Корпусное исследование предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Примечания

21

URL: http://ruscorpora.ru/search-poetic.html

22

URL: http://web-corpora.net/bashcorpus/

23

URL: http://www.versologie.cz/en/kcv.html

Смотрите также

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я