这款“狗屁不通”文章生成器火了,效果确实比GPT 2差太远
整理 | 夕顏
出品 | AI科技大本營(yíng)(ID:rgznai100)?
【導(dǎo)讀】最近,一個(gè)名字相當(dāng)接地氣的“狗屁不通”文章生成器(BullshitGenerator)火了,截至目前 GitHub 上 Star 數(shù)已超過(guò) 3200,還上了微博熱搜。這個(gè)神器可以生成各種各樣奇葩文章,比如領(lǐng)導(dǎo)專(zhuān)用“彩虹屁”萬(wàn)字長(zhǎng)文。只有你想不到,沒(méi)有這個(gè)神器寫(xiě)不成的文章。但是,生成的文章確實(shí)也是“狗屁不通”。這次我們就來(lái)解讀一下,這個(gè)生成器是怎么運(yùn)行的,以此為例,延展探討一下文本生成未來(lái)還有哪些改進(jìn)的方向。
用 Python 生成的這篇文章長(zhǎng)這樣:
由于下拉十多下沒(méi)滑到底,讓人失去了截全圖的耐心,文章也實(shí)在看不下去,因?yàn)樗娴氖且黄壿嫴煌ǖ?bullshit。
AI科技大本營(yíng)(ID:rgznai100)也用這個(gè)生成器嘗試了幾個(gè)大家都會(huì)思考的主題,比如:
? ? ? ? ? ? ? ? ? ? ?? ? ? ?? ? ? ?? ? ? ? ? ? ? ? ? ? ?
試完之后筆者發(fā)現(xiàn),文章本身是沒(méi)什么探討的必要性了,不信你可以自己試試:
生成器地址:https://suulnnka.github.io/BullshitGenerator/index.html
但是關(guān)于生成器的工作原理,相信很多人是比較感興趣的。
運(yùn)行原理是什么?
據(jù)貢獻(xiàn)者介紹,本項(xiàng)目最初的目的是用于中文文字 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染,用 Python 3 版本寫(xiě)成,目前共有 7 位貢獻(xiàn)者。?
鑒于目前 AI 用于文字生成非常流行,這個(gè)項(xiàng)目是否也用到了 AI 相關(guān)算法呢?答案是否定的,作者表示,BullshitGenerator 沒(méi)有用到任何自然語(yǔ)言處理相關(guān)算法,只是簡(jiǎn)單地?cái)]代碼就可以達(dá)到效果。
那 BullshitGenerator 運(yùn)行的原理是怎樣的?AI科技大本營(yíng)采訪了CSDN博客專(zhuān)家@小宋是呢進(jìn)行解讀:
“狗屁不通生成器”是一個(gè)文本生成器,用來(lái)生成一些中文文字用于 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染。由于此項(xiàng)目的目的只是用于 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染,所以對(duì)文本的連貫性和含義要求不高,這也就是“狗屁不通”的含義了
從源碼中可以看出,生成文本的方式就是從本地讀取到的文本中按照一定規(guī)律隨機(jī)讀取,并且替換掉文本中“x”為指定的主題文本,并未使用深度學(xué)習(xí)方法。不難發(fā)現(xiàn),生成的文本會(huì)存在句子不連貫、重復(fù)性高的特點(diǎn)。
issue 中有人發(fā)表了對(duì)這個(gè)項(xiàng)目的評(píng)價(jià):
? ? ? ?? ? ? ?
可以看到,大家對(duì)這個(gè)項(xiàng)目的評(píng)價(jià)還是以正面居多。其中,有人提到了希望與 GPT 2 進(jìn)行整合:
? ? ??
很快有人對(duì)這個(gè)想法提出疑問(wèn),比如算力的問(wèn)題。那么,BullshitGenerator 與 GPT 2 整合的想法可行嗎?或者是否有必要?@小宋是呢給出的看法如下:
個(gè)人覺(jué)得“狗屁不通生成器”與“GPT”結(jié)合意義不大,這兩個(gè)項(xiàng)目的目標(biāo)和特點(diǎn)差異很大?!肮菲ú煌ㄉ善鳌笔菫榱丝焖儆脕?lái)生成一些中文文字用于 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染,而“GPT”文本生成器目標(biāo)是生成高質(zhì)量連貫文本,“GPT”的特點(diǎn)是模型大速度慢質(zhì)量高,并不滿(mǎn)足“狗屁不通生成器”的設(shè)計(jì)需求。?
GPT 2 是 OpenAI 推出的一個(gè)中文生成模型,由加拿大工程師 Adam King 制作的網(wǎng)站上,任何人都能調(diào)教簡(jiǎn)化版的 GPT-2,它能夠識(shí)別從新聞、歌詞、詩(shī)歌、食譜、代碼的各種輸入,甚至還為《復(fù)仇者聯(lián)盟》寫(xiě)了一個(gè)細(xì)節(jié)豐富的續(xù)集,內(nèi)容可讀性相當(dāng)高。
? ? ? ?
令人振奮的是,這個(gè)史上最強(qiáng)的 NLP 模型今天正式全部開(kāi)源,OpenAI 正式放出了 GPT 2 的最后一部分代碼。
開(kāi)源地址:https://github.com/openai/gpt-2。?
作為 GPT 2 分段發(fā)布中的最后一輪,此次公開(kāi)的完整 GPT-2 包含 15 億條參數(shù),其中包含用于檢測(cè) GPT-2 模型輸出的全部代碼及模型權(quán)重。
當(dāng)然,關(guān)于 GPT 2 的討論仍在繼續(xù),比如它的實(shí)用性,生成假新聞被濫用引發(fā)的安全問(wèn)題等,都是后續(xù)還有待改善的關(guān)鍵點(diǎn)。
此外,GPT 2 還有一個(gè)中文版本,相比之下,GPT2 與 BullshitGenerator 不同之處在于前者使用了 BERT 或 BPE 編譯器,但同樣不需要算法基礎(chǔ),只要簡(jiǎn)單 clone 運(yùn)行即可,技術(shù)上的實(shí)現(xiàn)難度更大一些。
“GPT”是比較標(biāo)準(zhǔn)的自回歸語(yǔ)言模型了,Transformer 出現(xiàn)前都是通過(guò) RNN 的方法,之前比較火的“CharRNN”深度學(xué)習(xí)作詩(shī)與作曲都屬于這個(gè)范疇?!癎PT”將 Transformer 替換了 RNN,使得提取特征的能力與運(yùn)算速度都得到很大提升,當(dāng)然使用大規(guī)模數(shù)據(jù)訓(xùn)練模型也是“GPT”效果好的一個(gè)重要因素。
相較于“GPT”,“狗屁不通生成器”實(shí)現(xiàn)就簡(jiǎn)單很多,主要代碼就幾十行,基本上只用到了Python 編程技術(shù)。體現(xiàn)在文本的連貫性和含義上,雖然生成文本的質(zhì)量不高,但它也滿(mǎn)足了生成一些中文文字用于 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染的要求。
GPT2 中文項(xiàng)目:https://github.com/Morizeyao/GPT2-Chinese?
文本生成的未來(lái)
GPT 2 的橫空出世讓大家看到了 AI 在文本生成方面的潛力。正如 Open AI 官博所說(shuō),雖然 GPT 2 還面臨檢測(cè)等方面的挑戰(zhàn),但它的潛力還很大, Open AI 表示,未來(lái)這個(gè)模型還將繼續(xù)進(jìn)行改進(jìn),他們期望語(yǔ)言模型能夠在性能上有更大的提升,以此提供更高的輸出質(zhì)量和準(zhǔn)確性。
BullshitGenerator 項(xiàng)目也公布了下一步計(jì)劃:
防止文章過(guò)于內(nèi)容重復(fù)
加入更多啰嗦話.
加入馬三立<開(kāi)會(huì)迷>里的內(nèi)容
加入手寫(xiě)體直接渲染出圖片的功能(僅僅用于測(cè)試本人的打印機(jī)是否工作正常, 請(qǐng)勿做它用).
本文特邀專(zhuān)家:小宋是呢 @CSDN博客專(zhuān)家&知乎深度學(xué)習(xí)專(zhuān)欄作家(微信公眾號(hào) ID:aideepmiss)。在校前兩年半時(shí)間,獲得省級(jí)一等獎(jiǎng)(以上)獎(jiǎng)項(xiàng)十次,畢業(yè)時(shí),第一作者授權(quán)實(shí)用新型&發(fā)明專(zhuān)利共計(jì)二十余項(xiàng)。
目前研究方向:自然語(yǔ)言處理與自動(dòng)語(yǔ)音識(shí)別、圖像識(shí)別與自動(dòng)檢測(cè)、圖神經(jīng)網(wǎng)絡(luò)與推薦系統(tǒng)。
(*本文為AI科技大本營(yíng)原創(chuàng)文章,轉(zhuǎn)載請(qǐng)微信聯(lián)系 1092722531)
◆
精彩推薦
◆
12月6-8日,深圳!2019嵌入式智能?chē)?guó)際大會(huì),集聚500+位主流AIoT中堅(jiān)力量,100+位海內(nèi)外特邀技術(shù)領(lǐng)袖!9場(chǎng)技術(shù)論壇布道,更有最新芯片和模組等新品展示!點(diǎn)擊鏈接或掃碼,輸入本群專(zhuān)屬購(gòu)票優(yōu)惠碼CSDNQRSH,即可享受6.6折早鳥(niǎo)優(yōu)惠,比原價(jià)節(jié)省1000元,學(xué)生票僅售399元。
推薦閱讀
總結(jié)
以上是生活随笔為你收集整理的这款“狗屁不通”文章生成器火了,效果确实比GPT 2差太远的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 考取信息安全保障从业人员认证(CISAW
- 下一篇: 薄收缩小外形封装(TSSOP)的全球与中