В повечето курсове по литература на ниво колеж откривате студенти, които разчленяват малки части от литературната класика: солокиите на Шекспир, потока на съзнанието на Джойс и стакато изреченията на Хемингуей. Без съмнение, има много неща, които могат да се научат за един писател, неговия занаят и смисъла на историята от този тип внимателно четене.
Но Бен Блат прави силен аргумент за друг подход. Като се съсредоточи върху определени изречения и абзаци, той позира в новата си книга „Любимото слово на Набоков е Моув“, читателите пренебрегват всички останали думи, които в роман със средна дължина възлизат на десетки хиляди точки от данни.
Журналистът и статистикът създаде база данни с текста от някои класици и бестселъри на 20 век, за да отговори количествено на редица въпроси, които представляват интерес. Анализът му разкри някои странни модели, които иначе може да останат незабелязани:
По числа най-добрите встъпителни изречения към романите обикновено са кратки. Плодният автор Джеймс Патерсън е средно 160 клишета на 100 000 думи (това е със 115 повече от почитаната Джейн Остин), а Владимир Набоков използва думата мав 44 пъти по-често от средния писател през последните два века.
Smithsonian.com разговаря с Блат за неговия метод, някои от основните му открития и защо големите данни са важни за изучаването на литературата.
Взели сте статистически подход за изучаване на всичко - от Къде е Уолдо до Шейнфелд, фуги за бързо хранене до поп песни. Можете ли да обясните метода си и защо правите това, което правите?
Аз съм журналист на данни и гледам на нещата в поп културата и изкуството. Много ми харесва да разглеждам количествено и безпристрастно неща, които имат много информация, която хората не са преминали. Ако искате да научите за това какво е типичният човек от Съединените щати, би било полезно, но не бихте просто говорили с един човек, знаете всичко за тях и след това приемате, че всичко за хората в Съединените щати е един и същ. Мисля, че едно нещо с писането на такъв тип се губи е, че можете да се съсредоточите върху едно изречение от автор, особено в часовете по творческо писане или един пасаж, и губите по-голямата картина, за да видите тези общи модели и тенденции, които писателите използват отново и отново, стотици и може би хиляди пъти в собственото си писане.
Любимото слово на Набоков е страхотно: Какво разкриват числата за класиката, бестселърите и собствената ни писане
КупуваИ така, какво ви накара да се обърнете към литературата?
Моят произход е в математиката и компютърните науки, но винаги съм обичал да чета и пиша. Докато пишех все повече и повече, започнах да се интересувам как различните писатели и хора дават съвети за писане. Има много от това, което има смисъл, но изглежда не беше подкрепено от информация и много от тях, които влизаха в конфликт помежду си. Просто мислех, че трябва да има начин да се пишат тези теми в писмена форма, че хората вече са добре запознати и говорят и ги тестват на страхотни автори и популярни автори, за да видят дали този съвет е истински или дали е препоръчителен съвет, който няма “ наистина имам предвид нищо в истинските книги и истинските страници.
Кой беше първият въпрос, който искахте да зададете за литературната класика и бестселъри?
Първата глава в книгата е на съвета дали да използвате или не наречия. Това е и първата глава, която написах хронологично. Най-вече е на съвета на Стивън Кинг да не се използват - наречия в книгата му On Writing, която за много писатели е книгата за писане. Но много други писатели - Тони Морисън, Чък Паланюк - и всеки клас по творческо писане съветва да не използвате наречие -ly, защото това е излишна дума и знак, че не сте кратки. Вместо да кажете: „Той бързо избяга“, можете да кажете: „Той спринтира“.
Така че исках да знам, наистина ли е това? Ако това е толкова добър съвет, бихте очаквали, че големите автори всъщност го използват по-малко. Бихте очаквали, че любителите писатели го използват повече от публикуваните автори. Просто наистина исках да разбера стилистично, първо дали Стивън Кинг следваше собствения си съвет, а след това дали се отнася за всички останали велики и уважавани автори.
И така, какво открихте?
Всъщност има тенденция, че автори като Хемингуей, Морисън и Щайнбек, най-добрите им книги, тези, които са задържани и имат най-много внимание към тях сега, са книгите с най-малко количество - наречия. Освен това, ако сравнявате любителска художествена литература и писане онлайн, които не са редактирани с бестселъри и носители на Пулицърска награда от последно време, има разминаване, при което публикуваните автори се използват по-рядко наречия. Аз не съм толкова едностранчива, че мисля, че можете просто да извадите съкровените наречия от добре книгата и тя се превръща в страхотна книга. Това очевидно не е как работи. Но има нещо във факта, че писателите, които пишат по много директен начин, създават книги, които като цяло живеят най-дълго.
Как се заехте със създаването на база данни с литературни произведения?
За много от въпросите използвах същите 50 автори, които бях избрал някак произволно. По същество тя се основаваше на автори, които бяха начело на списъка с бестселъри, автори, които бяха на върха на най-великите автори на всички времена списък и автори, които просто представляват набор от различни жанрове и времена и читатели. По този начин в цялата книга можете да сравните тези автори и да ги опознаете.
За мен беше много важно, ако казах нещо от рода на „Тони Морисън използва тази дума с тази скорост“, говорех за всеки един роман, който някога е писал, а не само за трите, които случайно вече имам. В моята книга има от 50 до 100 автори, за които се говори. Намерих техните библиографии и след това намерих всичките им романи, които бяха написали до този момент, като пълен запис. В известен смисъл малко прилича на водене на спортни статистики, при които всяка книга е нещо като сезон и тогава всички тези сезони или книги се обединяват като кариера. Можете да видите как авторите се променят във времето и как правят нещата като цяло. След като разполагате с всички книги, тогава да се отговори на тези въпроси, които по някакъв начин са много обезсърчаващи, е много просто.
И как обработи целия този текст?
Има език за програмиране, наречен Python, и в рамките на това има набор от инструменти, наречени Natural Language Toolkit, често съкратено NLTK. Инструментите, участващи в това, са свободно достъпни за всеки. Можете да изтеглите пакета онлайн и да го използвате на Python или други езици. По-специално не можете да получите много от въпросите за писане, но можете да кажете, колко пъти тази дума се появява в текста? Той може да премине и да идентифицира къде изреченията завършват и къде започват изреченията и части от речта - прилагателно срещу наречие срещу глагол. Така че след като разполагате с тези инструменти, можете да получите данните.
Какви статистически данни съставихте ръчно? Кое беше най-досадното?
Има един раздел, в който разглеждам встъпителните изречения. Елмор Леонард, който беше много успешен романист, беше казал: „Никога не отваряйте книга с времето.“ Това също е съвет, намерен в много ръководства за писане. Така преминах през стотици автори, за да видя колко често отварят книгата си за времето. Например, Даниел Стийл, вярвам, че 45 процента от първите й изречения в книги са за времето. Много пъти просто "Беше великолепен ден" или "Беше светло и слънчево", такива неща. За това нямаше начин да се направи това автоматично, без да има някаква грешка, така че просто щях да прегледам всички файлове с книги и да отбележа дали е свързано времето. Можете да кажете, че беше досаден, защото бяха събрани много данни, но беше забавно да преминете и да прочетете стотици встъпителни изречения наведнъж. Има и други модели, които ясно се очертават от авторите във времето.
Както казвате, досадни за едни, забавни за други. Някои може да мислят, че този аналитичен подход е скучен, но вие твърдите, че той може да бъде "забавен" и "често направо смешен". Кое беше най-смешното ви откритие?
Заглавието на книгата, „Любимото слово на Набоков е синьо“, е за това как по числа думата, която той използва с най-високата скорост в сравнение с английския, е мазова. Това в крайна сметка има много смисъл, ако погледнете неговия произход, тъй като той имаше синестезия. Той говори в своята автобиография за това как, когато чуе различни букви и звуци, мозъкът му автоматично ще си внушава цветове.
Повторих този експеримент на 100 други автори, за да видя каква е любимата им дума. В резултат на това получавате три думи, които са представителни за тяхното писане от думите, които използват най-много. Гражданост, фантазия и безразсъдност. Това е Джейн Остин. Мисля, че ако видяхте тези думи, Джейн Остин може би е едно от първите ви предположения. И тогава имате автор като Джон Updike, който е малко по-мрачен и истински и от различно време. Любимите му думи са обградени, убодени и прецакани. Мисля, че виждането на личността да идва чрез тези прости математически въпроси е много интересно. Ако имате любим автор, преминаването през него разкрива нещо за тяхната личност, което може би не сте забелязали преди.
Рей Бредбъри беше написал, че любимата му дума е канела. По числа той наистина използва това много. Обяснението му защо харесва канелата беше, че това му напомняше за килера на баба му. Затова преминах и намерих други думи за подправки и миризми, които могат да бъдат свързани с килера на баба, а Рей Бредбъри използва повечето от тези думи с много висока скорост. В някакъв смисъл можете да получите този странен, фройдистки поглед в нещо за детските автори. Ако Рей Бредбъри не беше казал това, може би пак бихте могли да го разберете.
Сравнихте американски и британски писатели, потвърждавайки стереотип, че американците са гръмки. Можете ли да обясните това?
Този всъщност първоначално се основава на проучване, направено от аспирант в Станфорд. Беше идентифицирал думи, които се използват за описване на диалога в книгите, и ги описваше като силен, неутрален или тих. "Шепот" и "мърморене" ще бъдат безшумни. Неутрално ще бъде „той каза“ или „тя каза“, а на висок глас ще бъде „възкликна“ или „извика“. Преминах 50-те автори, които разгледах, както и големи образци на фен фантастика и открих, че не от луд марж, но смислен марж, че американците имат по-голямо съотношение на силните думи към тихите думи. Има няколко обяснения. Възможно е така да говорят американците през целия си живот, така че писателите описват, че говорят често. Можете също така просто да го видите като американски писатели, които предпочитат по-екшън-трилър, истории с висок темп в сравнение с по-фините. Американците наистина са по-силни от числата.
Бен Блат, автор на Любимата дума на Набоков е Моув (Сиера Катов)Защо смятате, че прилагането на математика в писането е добър начин за изучаване на литература?
Определено не съм застъпник, че това трябва да е първият начин да изучавате литература, ако се опитвате да подобрите писането си. Но дори романът с умерена дължина вероятно е 50 000 думи и това са 50 000 точки от данни. Просто няма да можете да се справите с всичко това наведнъж и ще има някои въпроси, на които просто не можете да отговорите сами. Хубаво е да видите по-голямата картина. Ако седнете и изучите един абзац, вие сте в своя клас по творческо писане и говорите с вашия професор, ако има зададен начин да погледнете на това, просто ще видите това през всичко. Но с данните този вид ви освобождава от тях и можете да отговорите на някои въпроси без тези предубеждения и наистина да получите нова информация.
Споменавате, че продължавахте да мислите назад към „Великият граматизатор“ на Роалд Дал.
Има страхотна история на Роалд Дал, където по същество инженер измисля начин да напише история. В този сценарий на съдбата някой може просто да даде сюжет на машината и той ще изплюе окончателен роман. Инсинуацията там е, че те произвеждат романи, които са толкова формулни и основни. Главният герой в тази история избира да не се присъединява към работата на машината и се бори срещу нея, като създава собствено писане и изкуство.
Определено смятам, че тази книга, ако пишете, ще отговори на много въпроси за вас и определено ще промени начина, по който мислите за някои неща, но в крайна сметка наистина няма замяна на идеи, които карат хората да мислят и сцени, които правят хората страх или се свържете с героите. Тази книга разглежда занаята на писането и не непременно как да създаде запомняща се история. Тази книга не се опитва да създаде перфектен роман и не мисля, че сме толкова близки до това, колкото някои хора могат да се страхуват.