Антон Зоркальцев решил алгеброй поверить красоту русского слова. Взяв лучшие тексты прошлых эпох и произведения современных поэтов, он провёл большое исследование, которое в будущем может пригодиться для работы с нейросетями и при составлении учебных пособий. О том, можно ли математически просчитать гениальность и гармонию текста – наш материал.
Любовь к слову проснулась у Антона лет в 13, когда он начал писать стихи. В школе также нравилась математика, легко давались иностранные языки, но останавливаться на чём-то одном ему не хотелось, и молодой человек искал дисциплину, которая объединила бы все его увлечения.
– К старшим классам открыл для себя лингвистику, без которой теперь невозможно представить развитие нейросетей, основанных, опять же, на математической модели, – говорит Антон.
Оказывается, выучиться на лингвиста сегодня не так-то просто: фундаментальные знания дают всего несколько учебных заведений в стране. Выбор встал между Москвой и Новосибирском. Студент остановился на Гуманитарном институте НГУ. Говорит, столица Сибири для него, иркутянина, оказалась ближе не только географически, но и ментально – ведь в Новосибирске когда-то получил образование отец Антона.
Выпускной работе Антон посвятил не только всю свою творческую душу, но и три года скрупулёзной работы. Тему исследования выбирал вместе с научным руководителем, доктором филологических наук Марией Кирилловной Тимофеевой.
– Она как раз занималась теорией риторических структур, но применительно к классической поэзии, и предложила мне продолжить эту тему. Я согласился, но решил сосредоточиться на песенных текстах: этот жанр более популярен и актуален и при этом менее изучен, – комментирует Антон.
Тексты и авторов для исследования молодой человек выбирал сам. Основными критериями были как масштабность автора в контексте определенного течения, так и его внимание к художественной стороне своих текстов. В итоговую подборку прошли поэты разных эпох и направлений: представитель поэтической оттепели Роберт Рождественский, один из основоположников жанра авторской песни Александр Городницкий, отец отечественного рока Юрий Шевчук.… Как отмечает Антон, с их творчеством он был знаком с детства – в его семье слушали и пели песни этих авторов.
Любопытный факт: недавно у Антона вышел первый сборник стихов, но взять что-то оттуда для работы он не решился – рановато пока. Но зато в пул вошли тексты Дмитрия Мозжухина – популярного сейчас молодёжного рок-исполнителя.
Исследование поэтического наследия с точки зрения лингвистики и математики – колоссальный труд, требующий не только понимания применяемых методик и метрик, но и практических умений. За основу Антон взял теорию риторических структур, описывающую смысловые отношения между частями текста. Этот инструмент был разработан и предложен ещё в 80-х годах прошлого века учёными Института информационных наук (ISI) Университета Южной Калифорнии Уильямом Манном и Сандрой Томпсон. С тех пор он дорабатывается и совершенствуется.
– Согласно данной теории, исследуемый текст разделяют на простые предложения (или другие единицы, в зависимости от цели) и анализируют, как они объединяются в одно дерево с помощью заданного изначально набора смысловых отношений, – поясняет Антон. – Например, части текста могут дополнять, уточнять или пояснять друг друга. Примечательно, что изначально теорию риторических структур предполагалось применять в сфере искусственного интеллекта, однако она также нашла достаточно эффективное применение в литературоведении, например, для изучения манипуляции читателем и механизмов влияния автора на аудиторию.
– При оценке эстетики мы не стремились показать, что есть хорошие и плохие тексты. Глобальная задача была в том, чтобы попытаться хотя бы отчасти понять, а что вообще такое красота, как мы её видим и как она проявляется, с чем она может быть связана, – говорит Антон.
– И что же вы увидели, работая с текстами, удалось ли понять, как рождается гениальное произведение?
– Для текстов песен мы взяли формулу, где мера эстетики определялась соотношением упорядоченности и сложности, – поясняет Антон. – Например, если мы берём энтропию (статистическая функция текста – Прим. ред.) в качестве измерителя сложности, то чем она меньше в базовом виде формулы, тем красивее текст. У нас получилось, что это правило работает для новых текстов – по-своему упрощённых и предсказуемых. В этом смысле примером гениальности могло бы послужить и детское стихотворение «Дом, который подстроил Джек». Казалось бы, мы пришли к неоднозначному выводу: чем сложнее текст, тем менее он эстетичен, но это не так! Скорее, для оценки текстов более ранних авторов необходим другой подход к измерению эстетики. Таких методов несколько, и мы попробовали применить лишь один из них. А это значит, есть пространство для дальнейших экспериментов.
Исследовать тексты песен с использованием математических методов молодому исследователю помогал его отец, доктор технических наук, выпускник НГУ, научный сотрудник Байкальского государственного университета Валерий Иванович Зоркальцев.
– Папа хорошо разбирается в теории вероятностей и статистике, поскольку математика – сфера его научной деятельности, – говорит Антон, – а нам для исследования было необходимо проверить погрешности в значениях некоторых метрик. Ведь мы собираем данные с ограниченного корпуса, и его расширение могло бы дать другие результаты. Для оценки погрешностей мы пользовались методом Монте-Карло – это математический метод для моделирования событий с неопределённой вероятностью. Мы с отцом разработали алгоритм, чтобы для каждого размера выборки оценить погрешность в значениях энтропии, что в итоге позволило нам сделать выводы, какие размеры текстового материала нужны для достаточно точных расчётов.
– А каково это математику оказаться в мире лирики?
– Как и в любом другом мире, перед математиком лежит одна и та же задача: ему нужно, чтобы специалист из новой предметной области подробно описал все объекты, с которыми нужно взаимодействовать. Если математик понимает иерархию, видит систему, то он уже сам предложит, что и как можно посчитать. Отец работал в разных областях науки, – от энергетики до лимнологии, – и поэтому легко подсказал, что и как следует считать.
Несмотря на узкоспециализированную направленность работы Антона Зоркальцева, этот труд может иметь довольно широкое прикладное значение. Как отмечает Антон, подобные исследования пополняют базу инструментария филологов и других специалистов, работающих с текстом.
– Та же оценка сложности – это вполне прикладная задача, которая может встречаться в разных отраслях. Например, при составлении учебно-методических пособий для учеников разного возраста, – поясняет он.
Работу Антона можно считать и личным вкладом в развитие прикладной лингвистики – востребованному в эпоху расцвета нейросетей направлению, где важно знание языков на профессиональном уровне и умение применять эти сведения в работе со всевозможными компьютерными программами и техническими инструментами.
В ближайших планах у Антона – поступление в магистратуру НГУ на механико-математический факультет. Говорит, хотел бы продолжить работу с текстами, но уже не художественного содержания, а технического. К слову, практический опыт в этом направлении он сейчас получает, подрабатывая техническим писателем в Яндексе.
Но и без лирики своей жизни молодой человек не представляет: в свободное время пишет стихи и музыку, в качестве исполнителя выступает на литературных фестивалях и концертах в Кузбассе, Новосибирской области и других регионах. Одним из своих стихотворений Антон поделился с LT:
пусть всё остаётся.
пусть всё остаётся привычным.
пускай остаётся прозрачной в Байкале вода.
и пусть необычное будет всегда необычным,
а русская классика классикой будет всегда.
пусть пол остаётся прекрасным,
а солнышко — красным.
ползучими — гады,
дремучим останется лес.
Сизифовы муки пускай остаются напрасны,
и всё остаётся на месте, а мы с тобой — здесь.
возможно, не в этой квартире,
не в этой Сибири,
но в этой дороге,
где в окнах мелькают дома —
их люди забыли
и досками окна забили.
пусть это изменится.
в окнах рассеется тьма.
мы старенький домик заселим
и темень рассеем,
и поле засеем,
и что-нибудь даже пожнём.
и Бог в эти окна
посмотрит прищуром весенним, —
прищуром веселья, —
а мы и не вспомним о Нём
5 / 23
Почему новому времени нужна новая этика и зачем родителям вновь садиться за парты?
7 / 2020
Отличается ли нынешнее поколение от первопроходцев космического пространства? Способна ли Россия на прорывные достижения, так ли талантлив Илон Маск, как о нём пишут в СМИ?
5 / 2020
О том, каково это — смотреть на мир глазами гениев.
8 / 2019
О проекте ERASMUS, реализация которого позволит в Новосибирске, а также еще в четырех городах мира готовить специалистов нового поколения по цифровизации.
11 / 2018
О языке и речи как о факторах духовного, интеллектуального и даже физического здоровья человека и целого народа.
7 / 2018
О том, что мы едим, пьём, наносим на кожу, и о том, как защитить свой организм от «химического мусора», который мы, сами того не зная, потребляем каждый день.