短短30分钟!计算机轻松判断J. K. 罗琳隐姓埋名写新作
2019獨角獸企業(yè)重金招聘Python工程師標準>>>
2013 年 7 月初,某位美國教授接到了一通來自大西洋對岸的電話,話筒另一端的陌生人請他破解一道謎題。一周內(nèi),他成為了鎂光燈的焦點,所有的國際報導都是他的消息。這很像丹.布朗筆下的情節(jié),寫成小說搞不好還能賣出幾百萬冊。但這是真人真事,主角并非《達文西密碼》的羅伯.蘭登,而是派崔克.卓拉;卓拉的研究領域不是象征符號學而是「文本計量分析」,而這次他要研究的對象也不是天主教教會,而是 J. K. 羅琳。卓拉是資工系教授,專長是用計算機分析文本來推斷作者身分,《星期日泰晤士報》的記者請他調(diào)查一本新小說,書名叫《杜鵑的呼喚》,作者是羅勃.蓋布瑞斯。這位作家是個文壇菜鳥,他在英國皇家憲兵隊服役多年后開始創(chuàng)作推理小說。然而,記者手上握有情報,據(jù)說根本沒有蓋布瑞斯這個人,這本書真正的作者其實就是大名鼎鼎、寫下《哈利波特》的 J. K. 羅琳。這是真的嗎?卓拉接下了這個案子,不到三十分鐘,計算機就給出了充分的證據(jù)來支持這項情報。但卓拉能證明這本書是羅琳寫的嗎?不能,不過他愿意賭一把,于是他將分析結(jié)果對外公布。當年的 7 月 13 日,盡管不甘愿,羅琳終于承認那是她的作品。
每個人獨一無二的創(chuàng)作指紋
羅琳說,她用「羅勃.蓋布瑞斯」的筆名創(chuàng)作,是因為她必須要假裝成文壇新人,才能得到最真實的評價,否則大家在閱讀之前早有成見。如果你像她一樣曾經(jīng)賣出過五億本《哈利波特》,就知道在聚光燈或放大鏡底下創(chuàng)作有多困難。所以,她能不能請大家拿掉濾鏡、忽略她的名聲,認真客觀地評價她的小說?或許不能──除非她冒充成其他人。但羅琳發(fā)現(xiàn),在自己的作品出版以后,要創(chuàng)造一個新身分就沒那么簡單了。所以她特別挑選了不同的類型、不同的讀者、不同的題材和不同的情節(jié),為的就是要讓自己「心里的那個家伙」能夠順利創(chuàng)作;而且如蓋布瑞斯所說,她要「像個男人」。她這次是為成人讀者而寫,不再是青少年小說。盡管她刻意使用了不同的語匯,但羅琳發(fā)現(xiàn),一個人實在很難改變或隱藏她的創(chuàng)作指紋。多年來累積的「作者分析」與「文本計量分析」都指出,我們每個人都有獨一無二的創(chuàng)作指紋或文字風格。就算羅琳想要放棄自己的風格、刻意使用「羅勃.蓋布瑞斯」的筆觸寫作,文字里還是有一些丟不掉的習慣和模式。卓拉的計算機才花幾分鐘就偵測了到這些模式,而這都是我們平常容易忽略的小細節(jié),像是介系詞、代名詞和標點符號的使用,這些便造就了一個作家的寫作風格。若要分析數(shù)千本小說的風格,這工程就比研究第一句話來得復雜多了。實際上,我們的風格分析要先從收集數(shù)千種寫作特征開始,這些寫作特征都是很普遍的字,像是「of」、「the」、「and」、「a」、「but」等。此外,我們也收集了語法、句長、標點、人稱等信息,以及作者最常使用的動詞、名詞、形容詞和副詞。
為了找出這些寫作特征,我們計算了每一本書各種字詞的使用頻率。以《達文西密碼》為例,丹.布朗大概每一百字里會用到七次定冠詞「the」;但葛里遜在《黑色豪門企業(yè)》里每一百字內(nèi)使用到「the」的次數(shù)不到六次。如果你拿這兩位作者的書讓我們盲測,我們從定冠詞的密集度就可以很有把握地辨別作者身分。在戈馬克.麥卡錫的《長路》里,「and」是使用頻率第二高的字(最高的是定冠詞「the」);第三高則是「he」,每一百字內(nèi)會出現(xiàn)四次。代名詞「she」在《長路》中雖鮮少出現(xiàn),每兩千字才出現(xiàn)一次,但「she」是《杜鵑的呼喚》里使用頻率第七高的字,每一百字內(nèi)出現(xiàn) 1.5 次。在安東尼.杜爾的二戰(zhàn)小說里,男、女主角戲份一樣重要,而「his」和「her」在書中的使用頻率也一樣高(約一百字內(nèi)出現(xiàn)一次);但是在諾拉.羅伯特的《最后一任男友》里,「her」的使用頻率是「his」的兩倍。羅伯特不常用到第二人稱「you」,但尼可拉斯.史帕克的《手札情緣》和亞當.強森的《沒有名字的人》都經(jīng)常提到「you」(史帕克每一百字以內(nèi)使用了 1.3 次,強森則是 1.4 次)。這些細節(jié)看似瑣碎,但就像人的指紋,微小卻很重要。
我們的模型檢視著每一塊打造風格的磚頭──不只是為小說奠基的磚塊,還包括了凝聚磚塊的水泥──然后讓我們看到這些字如何出現(xiàn)或消失在所有小說里。當我們一塊一塊檢視這些磚頭時,可以用最微觀的角度去理解作者的風格──他用了多少逗號、多少冒號、多少刪節(jié)號,還有各種名詞、介系詞、代名詞與連接詞的使用頻率。我們可以從分析結(jié)果看出最常見的基本動詞如「did」和「want」、最常見的基本名詞如「man」和「woman」,以及各種常見的形容詞和副詞的出現(xiàn)頻率。在這個層次,我們討論的風格差異并不是指句子要寫成「彼得要求用那種常見的園藝工具,可以去蕪存菁的那種設備」,還是「彼得說圓鍬就是好用的鏟子」;我們要說的是,透過文本計量分析,我們可以很快地知道第一句話有幾個定冠詞、幾個介系詞、幾個量詞,而這些字詞的使用頻率和第二句話有什么差別。第一句話里面的冠詞、代名詞和介系詞就是風格的表現(xiàn),因為越是迂回的句子越需要更多結(jié)構(gòu)上的支撐。而作者的文字風格便可以經(jīng)由計算寫作特征的頻率被推斷出來,所以當羅琳下筆的時候,不管她用的名字是「J. K. 羅琳」或「羅勃.蓋布瑞斯」,都還是會透露出她特有的風格記號。我們把數(shù)千本小說輸入到暢銷書量表,并設定程序注意風格的基本元素,計算機就會發(fā)現(xiàn)暢銷書作者一貫的風格,以及重復出現(xiàn)的模式。事實上,我們只要輸入 491 個最常出現(xiàn)的單字和標點符號,計算機就有 70% 的機率可以正確判斷一本書是暢銷書還是冷門書;縱使只輸入 148 種寫作特征,計算機的準確率還是可以高達 68%。而這只是用最常見的文法類單字和標點符號來預測分析,還沒有加入名詞、形容詞、動詞、語法和句型等數(shù)據(jù)。
當我們研究計算機模型的分析結(jié)果,并仔細觀察計算機模型辨識出的暢銷作家寫作特征,我們開始發(fā)現(xiàn)幾個令人著迷的現(xiàn)象。首先來看一些比較概略的發(fā)現(xiàn):助動詞「do」在暢銷書里出現(xiàn)的機會是冷門書的兩倍,而暢銷書里出現(xiàn)「very」的頻率只有冷門書的一半。威廉.史壯克和 E. B. 懷特曾在寫作入門課本《英文寫作風格的要素》里批評「很」這個字是「寄生在文藻池塘里的水蛭」,相信他們也會認同這個分析結(jié)果。至于否定縮寫「n’t」在暢銷書里出現(xiàn)的頻率則是冷門書的四倍。各類型的縮寫在暢銷書里都很常出現(xiàn),盡管高中老師看了可能會搖頭,覺得這種寫法不夠正式,但縮寫很適合大眾文學,因為敘事語調(diào)會因此變得比較親切、真誠、現(xiàn)代,可以贏得讀者的信賴。說書人不管是用第三人稱或第一人稱,都必須要讓讀者有真實感,才會愿意繼續(xù)讀下去。暢銷書里情態(tài)助動詞的縮寫「-’d」出現(xiàn)頻率是冷門書的十二倍,人稱動詞的縮寫「-’re」或「-’m」則是冷門書的五倍。我們幾乎可以聽到詩人威廉.華茲華斯在墳里大喊著:「沒錯,就是這樣!語言就是要貼近老百姓!」當代暢銷書顯然很服從華茲華斯的指示。其他比較不正式的書寫方式也很受到讀者喜愛,像「okay」在暢銷書里的比例高三倍;經(jīng)典文學作品中通常不會有「ugh」這個字,但在暢銷書里卻很常見。此外,暢銷書里的人物也比較愛問問題,我們發(fā)現(xiàn)上榜的小說里面問號比較多,但是驚嘆號就不見得了,驚嘆號是暢銷書的反指標。暢銷作家都曉得「沒燈了!樓梯要垮了!搞不好有鬼!」只會惹惱讀者;兩個驚嘆號的「我愛你!!」還不如「我愛你。」原文來源至:http://partner.henkel.com.cn/local/index.php
刪節(jié)號在正式文書里通常代表刪除或省略的文字,但在暢銷小說里卻不這么用,而是用來描述斷斷續(xù)續(xù)的想法或?qū)υ?#xff0c;讀者通常會自行腦補。「他又穿了那件燕尾服,胡渣還沒刮。老天爺……」大部分的讀者不需要其他的標點符號或單字就知道「老天爺」在這里不是禱告詞。我們閱讀的樂趣之一,就是在碰到刪節(jié)號時會覺得自己和說書人更加貼近,而暢銷小說常用刪節(jié)號就是因為刪節(jié)號可以創(chuàng)造出人物與讀者的默契──這招讀者很買單。我們得承認,對我們這種嗜字如命的人來說,數(shù)據(jù)分析實在太迷人。你可以想象我們?nèi)⒅粡埓箅娮颖砀?#xff0c;手上捧著咖啡,沒想到「thing」這個詞在暢銷書里出現(xiàn)的頻率是冷門書的六倍。其他文字愛好者一定也會坐在那里苦思良久,和我們一樣納悶像是「thing」這樣瑣碎的小字怎么能當做暢銷書的指標。但這份文字研究不光是滿足我們文字宅的癡念,而是真的要解開暢銷書密碼,這些數(shù)據(jù)可以告訴我們哪些書能大賣。想象一個女人緣極差的男人在酒吧里,對身旁的朋友說他的新戰(zhàn)術(shù)是同時和五個女生約會。他朋友把啤酒給嗆了出來,然后開口。朋友的響應可能有兩種:
「如果你約完會還能活下來我會很驚訝!」
或者:
「哦,如果你約會完還能活下來,那我會很驚訝。」
哪一種聽起來比較自然、比較生動?很顯然地,第二種。請注意一下這些細微調(diào)整后語調(diào)和語域的明顯變化。第二句話用句點和「哦」取代第一句話的驚嘆號,呆板的語氣就立刻生動了起來。我們注意到驚嘆號在暢銷書里出現(xiàn)得少,而這個例子便讓我們看出來句尾少了驚嘆號之后,語調(diào)可以更微妙。贏得市場佳績的作品里面,句號比較常見,分號和冒號則相對少見。這些細微的寫作特征或許沒辦法一一拿出來說明,但整體來看,寫作特征形成了一個顯著的模式,建構(gòu)出暢銷小說的語調(diào)和語域。當作者選擇用「I’d」來取代「I would」,或用「you’re」取代「you are」,這個決定遠比我們想象的還要重要。在暢銷小說里,形容詞和副詞比較少見,尤其是形容詞,這表示暢銷書里的句子比較簡潔,沒有無謂的贅字。句子不需要靠額外的子句來裝飾,名詞也不必一再修飾。動詞在暢銷書里出現(xiàn)的次數(shù)比較多,但動詞旁邊也不需要拖著可愛的副詞。暢銷書里的句子不是俗氣的圣誕樹,帶著刺眼的顏色,掛著燈泡、彩帶、天使和星星的重量;最好是一棵讓人一看就很放松療愈的冷杉。
轉(zhuǎn)載于:https://my.oschina.net/u/4024424/blog/2987551
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的短短30分钟!计算机轻松判断J. K. 罗琳隐姓埋名写新作的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【译】为何我们要写super(props
- 下一篇: 解析 | K8S之网络插件exec