Путешествия во время пандемии

Владимир Дараган

2020 год. Пандемия, маски, закрытые границы, путешествия ограничены. Но ведь можно пригласить друга, растопить камин, взять в руки глобус и начать с ним виртуальные путешествия по пространству и времени.

Оглавление

Слова на экране

Итак, дом на Ленинском проспекте. Восемнадцатый этаж. Окно кухни выходит на лесок, который тянется до Университета Дружбы Народов. Пью чай и смотрю в книгу, где незнакомые английские слова: defiant, discernible, abyss… Вздыхаю — зачем мне это надо? Маразм вроде не грозит, мозги и так работают в лаборатории, в памяти еле удерживаются формулы и графики — осталось не так много места для новых сочетаний букв, которые, как думаю, мне никогда не пригодятся.

Охи и стоны происходят над книгой Джека Лондона «Белый клык». То ли дело Хемингуэй! Книга «Прощай оружие» прошла на ура. Сначала я даже подумал, что знаю английский, ходил гордый, пока не взял в руки Лондона.

Прошли годы. Теперь надо перенестись в Миннеаполис. Дом в пригороде. За окном старые клены, еще более старая яблоня. Сейчас зима, ветер гоняет поземку по вершинам сугробов. Смотрю на белку, которая пытается залезть на птичью кормушку. Вот прыгнула, уцепилась. Есть в такой позе неудобно, белка начинает сбрасывать зерна. Внизу ожидает ужина ее подружка. Ладно, пусть развлекаются. Смотрю на экран — там страницы романов Хемингуэя и Лондона. Запускаю программу по анализу текстов. Это так, развлечение — по работе надо написать программу, которая ищет важные крупицы информации в словесном потоке. Сейчас же компьютер анализирует качество текста, его оригинальность.

Как это можно сделать? Способов миллион. У меня самый простейший. Можно взять достаточно длинный текст и посчитать, сколько раз встречается то или иное слово. После этого выделить первую сотню наиболее популярных слов и выкинуть их из текста — останутся более редкие. Оставшиеся слова уже не такие расхожие, и их количество характеризует стиль автора, его воображение, словарный запас. Чем больше слов в тексте останется после выкидывания 100 популярных слов, тем более насыщен текст нетривиальными словами.

Прогоняю через программу разные книги. Оказывается, что после выкидывания остается около 40% текста! Это же сколько бумаги и компьютерной памяти занимают эти 100 слов!

Вспоминаю книги Хемингуэя и Лондона. А ну ка, господа писатели, как у вас с языком? Компьютер на секунду задумывается и выдает ответ:

У Лондона остается 46% текста после выкидывания 100 популярных слов.

У Хемингуэя в этом случае остается 40%.

Так, Джек Лондон немного впереди. Что дальше:

Лондон использует в романах слова в среднем по 3,5 раза.

Хемингуэй использует в романах слова в среднем по 6,3 раза.

Ага, вот и ответ, почему тогда в Москве так портилось настроение после романов Лондона. Слишком у него много новых слов в текстах. Но может быть это только для выбранных романов? Прогоняю через программу другие романы. Вижу у Хемингуэя:

«Прощай, оружие!» — 40,1% и 6,6;

«По ком звонит колокол» — 39,6% и 6,0.

Так… числа практически стабильные. Это стиль писателя, он мало меняется от романа к роману.

А как насчет Шолохова? Прогоняю «Тихий Дон» и «Поднятую целину». Числа похожие. Так что, Шолохов все-таки сам написал «Тихий Дон»? Пусть даже используя чужие дневники и наброски. Вопрос можно закрыть? Не знаю… Пусть филологи решают, пишут статьи и диссертации. Я залез в чужой огород, мне надо писать другую программу.

— Означает ли это, что писатели с богатым языком более интересны и пишут лучше?

— Не факт, тут еще много чего надо учитывать. Это совсем другой уровень анализа. Для профессионалов. Но зато так можно понять, с каких писателей лучше начинать изучение языка, а каких оставить на потом.

Смотрите также

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я