Сможет ли «Биг дата» разыскать нового Гарри Поттера?

Новый алгоритм ставит своей целью добавить немного науки в издательское дело.

Автор: Стивен Филлипс

Как и другие отрасли индустрии, издание книг держится на выпуске хитов. Тем не менее, бизнес-прогнозирование бестселлеров остаётся загадочным искусством, опирающимся на интуицию и догадки. Иногда эти вещи здорово помогают отрасли, а иногда не очень, особенно если речь идёт об авторах-дебютантах. Дж. К. Роулинг и Джону Гришэму пришлось в своё время столкнуться с целой серией отказов прежде чем удалось договориться о публикации и донести свою работу до широких масс читателей. Книга Э.Л. Джеймс «Пятьдесят оттенков серого» нашла своего издателя только после того, как была опубликована автором самостоятельно.

Компьютерный алгоритм, который может определить текст-бестселлер с минимум 80-процентной вероятностью — звучит как научная фантастика. Но «бестселлерометр» – проект, описанный в книге «Код бестселлера: анатомия новеллы-блокбастера», выходящей вскоре продажу по авторством Джоди Арчер, исследователя, принимавшего участие в литературных разработках Apple и Мэтью Л. Джокерса, доцента кафедры английского языка в университете Небраска-Линкольн – существует в реальности. Эффективность работы данного алгоритма основана на ретроспективном анализе романов, вышедших за последние 30 лет и являющихся хитами по версии Нью-Йорк Таймс.

Спустя семь лет исследований и работы тысяч компьютеров, бестселлерометр представляет собой попытку определить характеристики самой успешной беллетристики с помощью анализа массивной базы литературы (более 20 тысяч романов). В поисках признаков, которые отличают успешные работы от неудачных и пытаясь подвести под них научную основу, проект пытается обнаружить «секреты», которые стоят за литературным коммерческим успехом. Это также может быть частью возможного будущего, когда издатели смогут использовать технологию, облегчающую выбор потенциально успешных произведений.

Но как алгоритм может охватить всю сложность и богатство литературы? Что может быть общего у таких разных хитов как «пляжные» романы Джеймса Паттерсона и обласканной критиками беллетристики Джонатана Францена? И как компьютер может осознать дух времени, который придаёт особый смысл посылу книги.

Проект был задуман в Стэнфордском университете примерно в 2008 году. Джокерс, работавший тогда лектором в кампусе Паоло Альто, являлся одним из ведущих экспертов в «цифровых гуманитарных науках» — новой области компьютерного анализа, который применяется к тексту (позднее он стал сооснователем Стэнфордской литературной лаборатории). Арчер, тогда аспирантка, была скептически настроена к идее того, что «компьютеры» смогут по существу оценить литературу. Демонстрации мастерства компьютерной модели в выборе жанра пьес Шекспира на основе текстовых маркеров оказалось мало чтобы развеять её сомнения, хотя она и была впечатлена зрелищем масштаба вычислений.

Запустив свою модель, Арчер и Джокерс обнаружили, что главный фактор успеха книги — «человеческая близость».

«Я уже знала, что Макбет — это трагедия» — убеждала она Джокерса — нам надо ставить вопросы, на которые мы не можем получить ответ, это продвинет нашу сферу вперёд».

А главный вопрос был следующим: «Почему мы все читаем одну и ту же книгу?»

Интерес Арчер сформировался несколькими годами ранее, когда она работала редактором издательства Penguin в Лондоне и наблюдала шумиху вокруг романа «Код Да Винчи». Критики предъявили жесткие претензии книге, тем не менее она пришлась по вкусу массовой аудитории (к данному моменту продано 80 миллионов копий). Была ли в ней «текстуальная харизма», как это называет «Код бестселлера», на которую, пусть даже неосознанно, реагировали читатели?

Алгоритм, который впоследствии создали Арчер и Джокерс — не первая попытка применить мощь Биг Дата к книгам. Inkitt, Берлинский стартап, который стоит за изданием «первого романа, выбранного с помощью алгоритма«, активно отслеживал читательские отзывы к историям, опубликованным на веб-платформе, с целью обнаружить потенциальные бестселлеры. Лондонское издательство Jellybooks, основанное в 2011 году, использовало «читательское вовлечение» в своём литературном производственном цикле, используя специальный софт (отслеживающий читательскую активность — ред), который читатели качали в обмен на доступ к романам. Но бестселлерометр стоит особняком в скрещивании литературоведения старой школы и компьютерной мощи. «Код бестселлера», ставший расширенной версией диссертации Арчер 2014 года, содержит объяснения того какие методы использовались чтобы «научить машину читать» и обнаружить микро-решения на уровне дикции и синтаксиса, от которых зависит создание бестселлера.

«Эти алгоритмы — не магия» — говорит доцент кафедры английского языка Университета Нотр-Дама Мэтью Уилкинс, который называет себя цифровым гуманистом. «Они отражают (те же) интерпретационные и аналитические выборы, (которые) заставляют внимательно читать определённую книгу, вы ищете определённые закономерности, шаблоны использования слов, тематические акценты и намёки. Это не та работа, которую может сделать кто-то, кто не знаком с литературой».

И так, что же может рассказать нам обученный алгоритм об истории, которая способна покорить большое количество читателей?

В некоторых элементах нет ничего удивительного: авторитетный «голос», свободная, откровенная, очень часто даже использующая разговорный язык проза, декларативные глаголы, которые придают дополнительное значение ориентированным на действие персонажам.

Другие моменты не столь очевидны. Каталогизировав слова, ассоциирующиеся с определённым субъектами, Арчер и Джокерс обнаружили повествовательную «сцепку» как один из признаков наиболее успешных коммерческих авторов. Даниэлла Стил и Джон Гришэм обычно отводят треть своих новелл под “особенные темы” – описания «бытовой жизни» в случае Стил, «адвокатам и закону» у Гришэма — и они являются частью общего микса, создающей контраст с основной линией, авторы могут переключаться между этими темами чтобы создать драматический конфликт. К примеру, Стил часто помещает своих персонажей в медицинские ситуации между жизнью и смертью. И наоборот, менее успешные романы более какафоничны, пытаются откусить больше, чем могут прожевать, наполнены несвязанными между собой темами.

Далее идут неожиданные открытия. Секс не продаётся. Согласно бестселлерометру он соответствует меньшинству вкусов и есть в исчезающе малой доле бестселлеров. Это открытие появилось в самом начале исследования, поэтому успех в 2011 году «Пятидесяти оттенков серого», в котором содержится большое количество откровенных эротических сцен, стало неожиданным. Но, запустив свою модель, Арчер и Джокерс обнаружили, что главным субъектом этой книги была «человеческая близость» (как по факту и в большинстве изученных исследователями бестселлерах). «Пятьдесят оттенков серого» — в основном об эмоциональной близости между персонажами.

Бестселлерометр может найти для себя очень благородное применение — в качестве демократизирующей силы.

Модель позволила подметить дополнительные признаки привлекательности популярных книг. Обозначив эмоциональные траектории, которым соответствовали эмоционально заряженные слова, Арчер и Джокерс обнаружили ритмический темп между циклами волнения и отрешения. При размещении на графике он демонстрирует почти идеальную волнообразную форму. «Джеймс описывает эмоциональные повороты с такой регулярностью, что читатель чувствует влияние её слов на тело как будто бы слушает клубную музыку» — сообщают учёные.

Авторы исследования отрицают любые предположения о том, что их алгоритм позволит обнаружить формулу, которую смогут использовать новелисты в погоне за коммерческим успехом — скорее, можно говорить о некоторых полезных моментах. Действительно, многое из обнаруженного раскрывает различные направления, на которых основывается популярная беллетристика, возможности, которые присущи форме. Этот алгоритм например заметил, что бестселлеры соответствуют одному из семи типов сюжета. И ещё книга скорее всего хорошо продастся, если закончится плохо (создав задел для хорошего сиквела, как гласит «Код бестселлера»).

Арчер и Джокерс также отрицают предположение, что они могут произвести революцию в издательском деле. У них нет никаких непосредственных планов коммерциализировать своё детище, Джокерс характеризует его как доказательство концепции, «прототип» для задач по решению вопросов в сфере литературы. Но создав алгоритм, который может улучшить способность издателей находить перспективные бестселлеры на стадии рукописи, они разработали потенциально ценный инструмент.

Джонни Геллер, соруководитель лондонского литературного агентства Кертис Браун, был столь заинтересован что приобрёл предварительный экземпляр «Кода Бестселлера» и прочитал его наполовину в момент нашей беседы в конце августа. Он видит потенциал приложения как инструмента на стадии «поиска», когда агенты разыскивают варианты для публикаций. Тем не менее он думает, что этот инструмент будет лишь дополнением к человеческой проницательности а не тем, что однажды вытеснит её. «Я использую человеческие алгоритмы всё время, но они ограничены и могут только ввести тебя в курс дела» — говорит он — «вам всё равно потребуется человек с его чувствами, способностью удивляться».

Редактор Knopf Кэроли Барон, которая редактировала романы Даниэлы Стил, Элмор Леонард, Джуди Блюм и других известных авторов, сказала, что она «скептически» настроена к силе прогнозирования алгоритма, составленного на основе уже опубликованных книг. «Как вы можете прогнозировать будущее литературы и искусства без учёта духа времени? Мы всегда являемся чем-то удивлены».

Именно духом времени можно объяснить судьбу произведения Дэйва Эггерса «Круг». Бестселлерометр обозначиk роман, вышедший в 2013 году как самый образцовый коммерческий текст за последние 30 лет. Он соответствовал всем показателям для популярной беллетристики и имел 100-процентный шанс стать бестселлером. Алгоритм оказался прав, «Круг» был продан в количестве 220 тыс. копий за июнь согласно данным Nielsen BookScan figures, опубликованным в Publishers Weekly. Однако это хотя и хорошая, но не космическая цифра.

Барон говорит, что это отличная демонстрация духа времени, который частично объясняет успех Даниэлы Стил, самого популярного из ныне работающих авторов (судя по продажам: 650 миллионов копий проданных книг и эта цифра продолжает расти). «Я говорила ей, что ты настоящий гуру» — рассказывает Барон — «я… верю в то, что эти слова и идеи есть в мире. Даниэлла может сказать — у меня есть эта идея — и в результате получается цельная ткань повествования. Она будет работать и работать над этим, но сама идея может посетить её посреди ночи».

Конечно, инерция вокруг Стил, Паттерсона и других так называемых авторов «франшиз», которые постоянно находятся на вершине рейтингов бестселлеров, означает что издатели менее склонны тратить средства на неизвестных авторов. И это сфера где бестселлерометр может найти своё наиболее благородное применение, говорит Арчер: как демократизируящая сила, инструмент, который снизит сомнения издателей в ставке на начинающего автора — вроде Дж. К. Роулинг или Джона Гришэма в прошлом — которые прозябают в общей неизвестности, без литературной родословной но с рукописями, соответствующими требованиям алгоритма, который может свидетельствовать, что они заслуживают второго взгляда.

«Эта история — про Миссис Смит из штата Айова, которая только что написала прекрасную книгу и может пробиться к аудитории» — говорит она.

Оригинал: TheAtlantic

Похожие Записи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Последние <span>истории</span>

Поиск описаний функциональности, введя ключевое слово и нажмите enter, чтобы начать поиск.