Как хорошо компьютеры могут читать беллетристику?

Вычислительные инструменты могут анализировать эмоциональные аспекты книг, но неправильно говорить, что они разбираются в литературе

Автор: Вероника Гринвуд

В последние годы литература привлекает к себе внимание с необычной точки зрения — математики. Вместе со специалистами в области статистической физики, которые анализируют связи между персонажами в исландских сагах и компьютерными учёными, исследующими жизнь и смерть слов в английской беллетристике, команда математиков Университета Вермонт изучила более 1000 текстов чтобы понять возможно ли автоматически определить эмоциональные дуги книг. Результаты демонстрируют нечто интересное, не только о повествованиях, но и об использовании этого подхода для изучения литературы.

Исследователи Вермонта работали с тестовыми субъектами чтобы создать программу, способную определить эмоциональное значение слов — позитивное, негативное или нейтральное. Слово «террорист», к примеру, было обозначено как негативное в базе данных слов программы, в то время как «выигрыш» — позитивное. Затем они выбрали тексты из массивного волонтёрского проекта по оцифровке книг, известного как «Проект Гутенберг», репозитория текстов, представляющих общественное достояние. Наконец, исследователи запустили серию инструментов анализа чтобы определить форму эмоциональных дуг в текстах.

И в самом деле, согласно данным, опубликованным на ArXiv.org в июне 2016, некоторые паттерны повторялись снова и снова. Около 85 процентов работ, которые изучили учёные, можно разделить на 6 групп. Некоторые из групп были описаны красочными именами — такими как «Икар», в соответствии с эмоциональным типом повествования, который характеризуется взлётом, а затем падением; или «из грязи в князи» — для тех, которые начинаются с негатива, а потом идут вверх. Некоторые из самых скачиваемых работ в «Проекте Гутенберга» подошли под модель «Золушка», которая характеризуется ростом, падением и новым ростом. Можно сделать выводы о том какой тип историй популярнее всего, или же о том, насколько мало истинное количество эмоциональных вариантов развития в человеческом повествовании.

Но внимательнее изучив книги, которые первоначально были включены в исследование, пришлось поставить под сомнение достоверность этих результатов. Для начала, анализ использовался не только в «Робинзоне Крузо» Дефо и «Рождественской песне в прозе» Диккенса, но и в таких книгах как «Заметки по сестринскому делу» и «История искусств для начинающих». Сборник сказок Ганса Христиана Андерсена был обработан как единый рассказ, а не серия повествований. Книгой, которая лучше всего подходит под дугу Икара, оказалась «196 сутр йоги». Другим странным моментом была дуга «Золушки» и наиболее подходящая ей книга: «Утешение философии» Боэция.

Результаты продемонстрировали одну из проблем автоматизированного анализа. Непросто взять большой обьём информации вроде общее количество книг «Проекта Гутенберга» и отфильтровать её чтобы получить ответы на требуемые вопросы. Эндрю Рейган, аспирант, который является ведущим автором исследования, охотно соглашается с тем, что анализируемые данные требуют дополнительной фильтрации. «Проект Гутенберг», в конце концов, содержит достаточно большое количество словарей и поэм, и даже текстов по проекту Человеческого генома, которые должны быть убраны из подборки.

Начиная с июня, когда данные впервые были опубликованы онлайн, Рейган получил множество советов и рекомендаций на тему того как лучше всего отфильтровать данные. К примеру, он узнал как получить доступ к классификации Библиотеки Конгресса для «Проекта Гутенберг». Это возымело эффект: «У меня получилось отобрать только полные работы по английской беллетристике» сказал он, так что его последняя, обновлённая версия исследования, которая была опубликована в сентябре, использует результаты этого труда.

Как это часто бывает, те же категории закрыли 85 процентов историй. Но это говорит о том, что паттерны не являются исключительными для произведений художественной литературы, как можно было предположить, когда группа стала изучать исключительно беллетристику. Сложно сказать как интерпретировать эти дуги не зная точно почему они существуют, или то, что они могут представлять с точки зрения читателей.

В то же время Вермонтская группа работает над получением детальной информации о текстах, оцифрованных в Google Books, которые должны предоставить больше данных благодаря материалам, опубликованным в течение 20 века в Соединённых штатах. Информация Google позволит сделать выборку книг за определённый период и сравнить их с книгами из этого же места в другое время, или из другого места и того же времени чтобы определить какие интересные выводы можно сделать. И будущие результаты могут также наметить архетипические эмоциональные формы определённого жанра -детективного например, или романтики.

В целом существует гораздо больший, всеобъемлющий вопрос. Удивительны ли сложности на этом пути? Может ли использование вычислительных машин, которые за сравнимое время способны обработать больший объём литературы чем один человек в состоянии прочесть, помочь нам заметить вещи, которые мы бы никогда не заметили сами? Сложно сказать. Но когда вы думаете о времени, которое займёт прочтение каждого романа в «Проекте Гутенберг», а также о том сколько усилий и мастерства потребовалось бы для описания всех закономерностей, вы поймёте почему некоторые люди как минимум совершают попытку.

Оригинал: The Atlantic

Понравился текст? Поддержите наш проект!

или напрямую на яндекс-кошелёк 410011404335475

Похожие Записи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Последние <span>истории</span>

Поиск описаний функциональности, введя ключевое слово и нажмите enter, чтобы начать поиск.