當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

这款“狗屁不通”文章生成器火了，效果确实比GPT 2差太远

發(fā)布時(shí)間：2024/1/1 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了这款“狗屁不通”文章生成器火了，效果确实比GPT 2差太远小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

整理 | 夕顏

出品 | AI科技大本營(yíng)（ID:rgznai100）?

【導(dǎo)讀】最近，一個(gè)名字相當(dāng)接地氣的“狗屁不通”文章生成器（BullshitGenerator）火了，截至目前 GitHub 上 Star 數(shù)已超過(guò) 3200，還上了微博熱搜。這個(gè)神器可以生成各種各樣奇葩文章，比如領(lǐng)導(dǎo)專(zhuān)用“彩虹屁”萬(wàn)字長(zhǎng)文。只有你想不到，沒(méi)有這個(gè)神器寫(xiě)不成的文章。但是，生成的文章確實(shí)也是“狗屁不通”。這次我們就來(lái)解讀一下，這個(gè)生成器是怎么運(yùn)行的，以此為例，延展探討一下文本生成未來(lái)還有哪些改進(jìn)的方向。

話說(shuō)，BullshitGenerator 這個(gè)項(xiàng)目最初起源于知乎上一位網(wǎng)友的提問(wèn)：“學(xué)生會(huì)退會(huì)申請(qǐng)六千字怎么寫(xiě)？”，本來(lái)很簡(jiǎn)單的一個(gè)問(wèn)題，但是回答中很多跑偏題的，于是本項(xiàng)目的貢獻(xiàn)者之一表示看不下去了，并“隨便寫(xiě)了個(gè)項(xiàng)目”：狗屁不通文章生成器，幫助這位同學(xué)寫(xiě)了一篇退會(huì)申請(qǐng)。
用 Python 生成的這篇文章長(zhǎng)這樣：

由于下拉十多下沒(méi)滑到底，讓人失去了截全圖的耐心，文章也實(shí)在看不下去，因?yàn)樗娴氖且黄壿嫴煌ǖ?bullshit。

AI科技大本營(yíng)（ID:rgznai100）也用這個(gè)生成器嘗試了幾個(gè)大家都會(huì)思考的主題，比如：

? ? ? ? ? ? ? ? ? ? ?? ? ? ?? ? ? ?? ? ? ? ? ? ? ? ? ? ?

試完之后筆者發(fā)現(xiàn)，文章本身是沒(méi)什么探討的必要性了，不信你可以自己試試：

生成器地址：https://suulnnka.github.io/BullshitGenerator/index.html

但是關(guān)于生成器的工作原理，相信很多人是比較感興趣的。

運(yùn)行原理是什么？

據(jù)貢獻(xiàn)者介紹，本項(xiàng)目最初的目的是用于中文文字 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染，用 Python 3 版本寫(xiě)成，目前共有 7 位貢獻(xiàn)者。?

鑒于目前 AI 用于文字生成非常流行，這個(gè)項(xiàng)目是否也用到了 AI 相關(guān)算法呢？答案是否定的，作者表示，BullshitGenerator 沒(méi)有用到任何自然語(yǔ)言處理相關(guān)算法，只是簡(jiǎn)單地?cái)]代碼就可以達(dá)到效果。

那 BullshitGenerator 運(yùn)行的原理是怎樣的？AI科技大本營(yíng)采訪了CSDN博客專(zhuān)家@小宋是呢進(jìn)行解讀：

“狗屁不通生成器”是一個(gè)文本生成器，用來(lái)生成一些中文文字用于 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染。由于此項(xiàng)目的目的只是用于 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染，所以對(duì)文本的連貫性和含義要求不高，這也就是“狗屁不通”的含義了

if __name__ == "__main__": xx = input("請(qǐng)輸入文章主題:") for x in xx: tmp = str() while ( len(tmp) < 6000 ) : 分支 = random.randint(0,100) if 分支 < 5: tmp += 另起一段() elif 分支 < 20 : tmp += 來(lái)點(diǎn)名人名言() else: tmp += next(下一句廢話) tmp = tmp.replace("x",xx)???????print(tmp) ?

從源碼中可以看出，生成文本的方式就是從本地讀取到的文本中按照一定規(guī)律隨機(jī)讀取，并且替換掉文本中“x”為指定的主題文本，并未使用深度學(xué)習(xí)方法。不難發(fā)現(xiàn)，生成的文本會(huì)存在句子不連貫、重復(fù)性高的特點(diǎn)。

是否能與 GPT 2 結(jié)合？

issue 中有人發(fā)表了對(duì)這個(gè)項(xiàng)目的評(píng)價(jià)：

? ? ? ?? ? ? ?

可以看到，大家對(duì)這個(gè)項(xiàng)目的評(píng)價(jià)還是以正面居多。其中，有人提到了希望與 GPT 2 進(jìn)行整合：

? ? ??

很快有人對(duì)這個(gè)想法提出疑問(wèn)，比如算力的問(wèn)題。那么，BullshitGenerator 與 GPT 2 整合的想法可行嗎？或者是否有必要？@小宋是呢給出的看法如下：

個(gè)人覺(jué)得“狗屁不通生成器”與“GPT”結(jié)合意義不大，這兩個(gè)項(xiàng)目的目標(biāo)和特點(diǎn)差異很大?！肮菲ú煌ㄉ善鳌笔菫榱丝焖儆脕?lái)生成一些中文文字用于 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染，而“GPT”文本生成器目標(biāo)是生成高質(zhì)量連貫文本，“GPT”的特點(diǎn)是模型大速度慢質(zhì)量高，并不滿(mǎn)足“狗屁不通生成器”的設(shè)計(jì)需求。?

GPT 2 是 OpenAI 推出的一個(gè)中文生成模型，由加拿大工程師 Adam King 制作的網(wǎng)站上，任何人都能調(diào)教簡(jiǎn)化版的 GPT-2，它能夠識(shí)別從新聞、歌詞、詩(shī)歌、食譜、代碼的各種輸入，甚至還為《復(fù)仇者聯(lián)盟》寫(xiě)了一個(gè)細(xì)節(jié)豐富的續(xù)集，內(nèi)容可讀性相當(dāng)高。

? ? ? ?

令人振奮的是，這個(gè)史上最強(qiáng)的 NLP 模型今天正式全部開(kāi)源，OpenAI 正式放出了 GPT 2 的最后一部分代碼。

開(kāi)源地址：https://github.com/openai/gpt-2。?

作為 GPT 2 分段發(fā)布中的最后一輪，此次公開(kāi)的完整 GPT-2 包含 15 億條參數(shù)，其中包含用于檢測(cè) GPT-2 模型輸出的全部代碼及模型權(quán)重。

當(dāng)然，關(guān)于 GPT 2 的討論仍在繼續(xù)，比如它的實(shí)用性，生成假新聞被濫用引發(fā)的安全問(wèn)題等，都是后續(xù)還有待改善的關(guān)鍵點(diǎn)。

此外，GPT 2 還有一個(gè)中文版本，相比之下，GPT2 與 BullshitGenerator 不同之處在于前者使用了 BERT 或 BPE 編譯器，但同樣不需要算法基礎(chǔ)，只要簡(jiǎn)單 clone 運(yùn)行即可，技術(shù)上的實(shí)現(xiàn)難度更大一些。

“GPT”是比較標(biāo)準(zhǔn)的自回歸語(yǔ)言模型了，Transformer 出現(xiàn)前都是通過(guò) RNN 的方法，之前比較火的“CharRNN”深度學(xué)習(xí)作詩(shī)與作曲都屬于這個(gè)范疇?！癎PT”將 Transformer 替換了 RNN，使得提取特征的能力與運(yùn)算速度都得到很大提升，當(dāng)然使用大規(guī)模數(shù)據(jù)訓(xùn)練模型也是“GPT”效果好的一個(gè)重要因素。

相較于“GPT”，“狗屁不通生成器”實(shí)現(xiàn)就簡(jiǎn)單很多，主要代碼就幾十行，基本上只用到了Python 編程技術(shù)。體現(xiàn)在文本的連貫性和含義上，雖然生成文本的質(zhì)量不高，但它也滿(mǎn)足了生成一些中文文字用于 GUI 開(kāi)發(fā)時(shí)測(cè)試文本渲染的要求。

GPT2 中文項(xiàng)目：https://github.com/Morizeyao/GPT2-Chinese?

文本生成的未來(lái)

GPT 2 的橫空出世讓大家看到了 AI 在文本生成方面的潛力。正如 Open AI 官博所說(shuō)，雖然 GPT 2 還面臨檢測(cè)等方面的挑戰(zhàn)，但它的潛力還很大， Open AI 表示，未來(lái)這個(gè)模型還將繼續(xù)進(jìn)行改進(jìn)，他們期望語(yǔ)言模型能夠在性能上有更大的提升，以此提供更高的輸出質(zhì)量和準(zhǔn)確性。

BullshitGenerator 項(xiàng)目也公布了下一步計(jì)劃:

防止文章過(guò)于內(nèi)容重復(fù)

加入更多啰嗦話.

加入馬三立<開(kāi)會(huì)迷>里的內(nèi)容

加入手寫(xiě)體直接渲染出圖片的功能(僅僅用于測(cè)試本人的打印機(jī)是否工作正常, 請(qǐng)勿做它用).

大膽設(shè)想一下，日后類(lèi)似于 BullshitGenerator 這樣的文本生成器將進(jìn)一步改進(jìn)，那么是否在沒(méi)有 AI 算法的參與下，僅憑簡(jiǎn)單的代碼就能夠生成高質(zhì)量的文本（雖然可能性幾乎為零，但如果可以實(shí)現(xiàn)將是顛覆性的成果）？從另一個(gè)思路來(lái)講，以 GPT2 為代表的 NLP 模型現(xiàn)在已經(jīng)可以生成以假亂真的文本，未來(lái)又該如何克服目前的挑戰(zhàn)，生成更高質(zhì)量的作品，同時(shí)能夠保證安全？是否未來(lái)有一天，文本生成技術(shù)或許真的會(huì)取代一部分人類(lèi)的工作？這些問(wèn)題都值得深思。

本文特邀專(zhuān)家：小宋是呢 @CSDN博客專(zhuān)家&知乎深度學(xué)習(xí)專(zhuān)欄作家（微信公眾號(hào) ID:aideepmiss）。在校前兩年半時(shí)間，獲得省級(jí)一等獎(jiǎng)（以上）獎(jiǎng)項(xiàng)十次，畢業(yè)時(shí)，第一作者授權(quán)實(shí)用新型&發(fā)明專(zhuān)利共計(jì)二十余項(xiàng)。

目前研究方向：自然語(yǔ)言處理與自動(dòng)語(yǔ)音識(shí)別、圖像識(shí)別與自動(dòng)檢測(cè)、圖神經(jīng)網(wǎng)絡(luò)與推薦系統(tǒng)。

（*本文為AI科技大本營(yíng)原創(chuàng)文章，轉(zhuǎn)載請(qǐng)微信聯(lián)系 1092722531）

◆

精彩推薦

◆

12月6-8日，深圳！2019嵌入式智能?chē)?guó)際大會(huì)，集聚500+位主流AIoT中堅(jiān)力量，100+位海內(nèi)外特邀技術(shù)領(lǐng)袖！9場(chǎng)技術(shù)論壇布道，更有最新芯片和模組等新品展示！點(diǎn)擊鏈接或掃碼，輸入本群專(zhuān)屬購(gòu)票優(yōu)惠碼CSDNQRSH，即可享受6.6折早鳥(niǎo)優(yōu)惠，比原價(jià)節(jié)省1000元，學(xué)生票僅售399元。

總結(jié)

以上是生活随笔為你收集整理的这款“狗屁不通”文章生成器火了，效果确实比GPT 2差太远的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：考取信息安全保障从业人员认证（CISAW
下一篇：薄收缩小外形封装（TSSOP）的全球与中

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔

生活随笔

编程问答

这款“狗屁不通”文章生成器火了，效果确实比GPT 2差太远

推薦閱讀

總結(jié)