不做文盲画家,谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」
圖像生成模型終于學(xué)會(huì)了拼寫(xiě)單詞,秘訣竟是字符特征?
過(guò)去的一年里,隨著 DALL-E 2,Stable Diffusion 等圖像生成模型的發(fā)布,text-to-image 模型生成的圖像在分辨率、質(zhì)量、文本忠實(shí)度等方面都得到了飛躍性提升,極大促進(jìn)了下游應(yīng)用場(chǎng)景的開(kāi)發(fā),人人都成了 AI 畫(huà)家。
但相關(guān)研究表明,目前的生成模型技術(shù)仍然存在一個(gè)重大缺陷:無(wú)法在圖像中呈現(xiàn)出可靠的視覺(jué)文本。
有研究結(jié)果表明,DALL-E 2 在圖片中生成連貫文本字符上非常不穩(wěn)定,而最新發(fā)布的 Stable Diffusion 模型則是直接將「無(wú)法呈現(xiàn)可讀的文本」列為已知的限制。
最近 Google Research 發(fā)布了一篇新論文,試圖了解并提高圖像生成模型渲染高質(zhì)量視覺(jué)文本的能力。
研究人員認(rèn)為當(dāng)下的 text-to-image 生成模型模型存在文本渲染缺陷的主要原因是缺乏字符級(jí)的輸入特征。
為了量化該輸入特征在模型生成中的影響,文章中設(shè)計(jì)了一系列控制實(shí)驗(yàn)對(duì)是否包含文本輸入特征的文本編碼器(character-aware 和 character-blind)進(jìn)行對(duì)比。
研究人員發(fā)現(xiàn),在純文本領(lǐng)域,character-aware 模型在一個(gè)新的拼寫(xiě)任務(wù)(WikiSpell)上獲得了很大的性能收益。
將該經(jīng)驗(yàn)遷移到視覺(jué)領(lǐng)域后,研究人員訓(xùn)練了一套圖像生成模型。實(shí)驗(yàn)結(jié)果表明 character-aware 模型在一系列新的文本渲染任務(wù)(DrawText 基準(zhǔn))中比 character-blind 更勝一籌。
并且 character-aware 模型在視覺(jué)拼寫(xiě)方面達(dá)到了更高的技術(shù)水平,盡管訓(xùn)練的樣例數(shù)量少得多,其在不常見(jiàn)的單詞上的準(zhǔn)確率仍然比競(jìng)爭(zhēng)模型高出 30 多個(gè)百分點(diǎn)。
Character-Aware 模型
語(yǔ)言模型可分為直接訪問(wèn)構(gòu)成其文本輸入字符的 character-aware 模型和無(wú)法訪問(wèn)的 character-blind 模型。
許多早期的神經(jīng)語(yǔ)言模型直接在字符上進(jìn)行操作,而不使用多字符的 token 作為標(biāo)記。
后來(lái)的模型逐漸轉(zhuǎn)向基于詞匯表的 tokenization,其中一些模型如 ELMo 仍然保留了 character-aware,但其他模型如 BERT 則放棄了字符特征以支持更有效的預(yù)訓(xùn)練。
目前,大多數(shù)廣泛使用的語(yǔ)言模型是 character-blind 的,依靠數(shù)據(jù)驅(qū)動(dòng)的子詞(subword)分割算法,如字節(jié)對(duì)編碼(BPE)來(lái)生成子詞 pieces 作為詞匯表。
雖然這些方法對(duì)于不常見(jiàn)的序列可以退回到字符級(jí)表示,但它們?cè)谠O(shè)計(jì)上仍然會(huì)將常見(jiàn)的字符序列壓縮成不可分割的單元。
這篇論文的主要目的是試圖了解并提高圖像生成模型渲染高質(zhì)量視覺(jué)文本的能力。
為此,研究人員首先孤立地研究了當(dāng)下文本編碼器的拼寫(xiě)能力,從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),盡管 character-blind 文本編碼器很受歡迎,但它們沒(méi)有收到關(guān)于其輸入的字符級(jí)構(gòu)成的直接信號(hào),導(dǎo)致其拼寫(xiě)能力有限。
研究人員還測(cè)試了不同規(guī)模、架構(gòu)、輸入表示、語(yǔ)言和調(diào)整方法的文本編碼器的拼寫(xiě)能力。
這篇論文首次記錄了 character-blind 模型通過(guò)網(wǎng)絡(luò)預(yù)訓(xùn)練誘導(dǎo)出強(qiáng)大的拼寫(xiě)知識(shí)(準(zhǔn)確率 > 99%)的神奇能力,但實(shí)驗(yàn)結(jié)果表明這項(xiàng)能力在英語(yǔ)之外的語(yǔ)言中并沒(méi)有得到很好的泛化,而且只有在超過(guò) 100B 參數(shù)的規(guī)模下才能實(shí)現(xiàn),所以對(duì)于大多數(shù)應(yīng)用場(chǎng)景是不可行的。
另一方面,character-aware 的文本編碼器能夠在更小的尺度上實(shí)現(xiàn)強(qiáng)大的拼寫(xiě)能力。
在將這些發(fā)現(xiàn)應(yīng)用于圖像生成場(chǎng)景時(shí),研究人員訓(xùn)練了一系列 character-aware 的文本到圖像的模型,并證明它們?cè)诂F(xiàn)有的和新的文本渲染的評(píng)估中明顯優(yōu)于字符盲目的模型。
但對(duì)于純字符級(jí)模型來(lái)說(shuō),雖然文本渲染的性能提升了,但對(duì)于不涉及視覺(jué)文本的 prompt,圖像-文本對(duì)齊度則會(huì)下降。
為了緩解這一問(wèn)題,研究人員建議將字符級(jí)和 token 級(jí)的輸入表征結(jié)合起來(lái),從而可以實(shí)現(xiàn)最佳的性能。
WikiSpell 基準(zhǔn)
由于文本到圖像的生成模型依賴(lài)于文本編碼器來(lái)產(chǎn)生用于解碼的表征,研究人員首先從 Wiktionary 中采樣一些單詞創(chuàng)建了 WikiSpell 基準(zhǔn),然后基于此數(shù)據(jù)集在一個(gè)純文本的拼寫(xiě)評(píng)估任務(wù)來(lái)探索文本編碼器的能力。
對(duì)于 WikiSpell 中的每個(gè)樣例,模型的輸入是一個(gè)單詞,預(yù)期的輸出是它的具體拼寫(xiě)(通過(guò)在每個(gè) Unicode 字符之間插入空格來(lái)生成)。
由于該文章僅對(duì)研究一個(gè)詞的頻率和模型的拼寫(xiě)能力之間的關(guān)系感興趣,所以研究人員根據(jù)單詞在 mC4 語(yǔ)料庫(kù)中出現(xiàn)的頻率,將 Wiktionary 中的詞分成五個(gè)互不重疊的桶:最頻繁的前 1% 的詞,最頻繁的 1-10% 的詞,10-20% 的詞,20-30% 的詞,以及最低的 50% 的詞(包括在語(yǔ)料庫(kù)中從未出現(xiàn)過(guò)的詞)。
然后從每個(gè)桶中均勻地抽取 1000 個(gè)詞來(lái)創(chuàng)建一個(gè)測(cè)試集(以及一個(gè)類(lèi)似的開(kāi)發(fā)集)。
最后通過(guò)結(jié)合兩部分建立了一個(gè)由 10,000 個(gè)詞組成的訓(xùn)練集:5,000 個(gè)從最底層的 50% 桶(最不常見(jiàn)的詞)中統(tǒng)一取樣,另外 5,000 個(gè)根據(jù)它們?cè)?mC4 中的頻率按比例取樣(從而使這一半的訓(xùn)練集偏向頻繁的詞)。
研究人員將任何被選入開(kāi)發(fā)集或測(cè)試集的詞排除在訓(xùn)練集之外,因此評(píng)估結(jié)果總是針對(duì)被排除的詞。
除了英語(yǔ)外,研究人員還對(duì)其他六種語(yǔ)言(阿拉伯語(yǔ)、漢語(yǔ)、芬蘭語(yǔ)、韓語(yǔ)、俄語(yǔ)、泰語(yǔ))進(jìn)行評(píng)估,選擇這些語(yǔ)言是為了涵蓋影響模型學(xué)習(xí)拼寫(xiě)能力的各種特性,對(duì)每一種語(yǔ)言的評(píng)估都重復(fù)上述數(shù)據(jù)集構(gòu)建過(guò)程。
文本生成實(shí)驗(yàn)
研究人員使用 WikiSpell 基準(zhǔn)來(lái)評(píng)估多種預(yù)訓(xùn)練的純文本模型在不同規(guī)模上的表現(xiàn),包括 T5(一個(gè)在英語(yǔ)數(shù)據(jù)上預(yù)訓(xùn)練的 character-blind 編碼解碼器模型);mT5(與 T5 類(lèi)似,但在超過(guò) 100 種語(yǔ)言上預(yù)訓(xùn)練);ByT5(mT5 的 character-aware 版本,直接在 UTF-8 字節(jié)序列上操作);以及 PaLM(一個(gè)規(guī)模更大的解碼模型,主要是在英語(yǔ)上預(yù)訓(xùn)練的)。
在純英語(yǔ)和多語(yǔ)言的實(shí)驗(yàn)結(jié)果中,可以發(fā)現(xiàn) character-blind 模型 T5 和 mT5 在包含 Top-1% 最頻繁詞匯的桶上的表現(xiàn)要差很多。
這個(gè)結(jié)果似乎是反直覺(jué)的,因?yàn)槟P屯ǔT跀?shù)據(jù)中頻繁出現(xiàn)的例子上表現(xiàn)最好,但是由于 subword 詞匯的訓(xùn)練方式,頻繁出現(xiàn)的詞通常被表示為一個(gè)單一的原子標(biāo)記(或少量的標(biāo)記),事實(shí)上也是如此:在英語(yǔ)前 1% 的桶中,87% 的詞被 T5 的詞匯表示為一個(gè)子詞標(biāo)記。
因此,較低的拼寫(xiě)準(zhǔn)確性分?jǐn)?shù)表明,T5 的編碼器沒(méi)有保留足夠的關(guān)于其詞匯中 subword 的拼寫(xiě)信息。
其次,對(duì)于 character-blind 模型,規(guī)模是影響拼寫(xiě)能力的一個(gè)重要因素。T5 和 mT5 都隨著規(guī)模的增加而逐漸變好,但即使在 XXL 規(guī)模下,這些模型也沒(méi)有表現(xiàn)出特別強(qiáng)的拼寫(xiě)能力。
只有當(dāng) character-blind 模型達(dá)到 PaLM 的規(guī)模時(shí),才開(kāi)始看到近乎完美的拼寫(xiě)能力:540B 參數(shù)的 PaLM 模型在英語(yǔ)的所有頻率桶中都達(dá)到了 > 99% 的準(zhǔn)確率,盡管它在提示中只看到 20 個(gè)例子(而 T5 顯示的是 1000 個(gè)微調(diào)例子)。
然而,PaLM 在其他語(yǔ)言上的表現(xiàn)較差,可能是由于這些語(yǔ)言的預(yù)訓(xùn)練數(shù)據(jù)少得多。
對(duì) ByT5 的實(shí)驗(yàn)表明,character-aware 模型表現(xiàn)出更強(qiáng)大的拼寫(xiě)能力。ByT5 在 Base 和 Large 尺寸下的表現(xiàn)僅略微落后于 XL 和 XXL(盡管仍然至少在 90% 的范圍內(nèi)),而且一個(gè)詞的頻率似乎對(duì) ByT5 的拼寫(xiě)能力沒(méi)有太大影響。
ByT5 的拼寫(xiě)性能遠(yuǎn)遠(yuǎn)超過(guò)了 (m) T5 的結(jié)果,甚至與參數(shù)多于 100 倍的 PaLM 的英語(yǔ)表現(xiàn)相當(dāng),并且超過(guò)了 PaLM 在其他語(yǔ)言上的表現(xiàn)。
從而可知 ByT5 編碼器保留了相當(dāng)多的字符級(jí)信息,而且這些信息可以根據(jù)解碼任務(wù)的需要從這些凍結(jié)的參數(shù)中檢索出來(lái)。
DrawText 基準(zhǔn)
從 2014 年發(fā)布的 COCO 數(shù)據(jù)集到 2022 年的 DrawBench 基準(zhǔn),從 FID, CLIP 得分到人類(lèi)偏好等指標(biāo),如何評(píng)估 text-to-image 模型一直是一個(gè)重要的研究課題。
但目前在文本渲染和拼寫(xiě)評(píng)估方面一直缺乏相關(guān)工作。
為此,研究人員提出了一個(gè)新的基準(zhǔn) DrawText,旨在全面衡量文本到圖像模型的文本渲染質(zhì)量。
DrawText 基準(zhǔn)由兩部分組成,分別測(cè)量模型能力的不同維度:
1)DrawText Spell,通過(guò)大量的英語(yǔ)單詞集合的普通單詞渲染進(jìn)行評(píng)估;
研究人員從英語(yǔ) WikiSpell 頻率桶中各抽取 100 個(gè)單詞,并將它們插入一個(gè)標(biāo)準(zhǔn)模板中,總共構(gòu)建了 500 個(gè)提示。
對(duì)于每個(gè) prompt,從候選模型中抽取 4 張圖片,并使用人類(lèi)評(píng)分和基于光學(xué)字符識(shí)別(OCR)的指標(biāo)對(duì)其進(jìn)行評(píng)估。
2)DrawText Creative,通過(guò)視覺(jué)效果的文本渲染進(jìn)行評(píng)估。
視覺(jué)文本并不局限于像街道標(biāo)志那樣的常見(jiàn)場(chǎng)景,文字可以以多種形式出現(xiàn),如潦草的、繪畫(huà)的、雕刻的、雕塑的,等等。
如果圖像生成模型支持靈活而準(zhǔn)確的文本渲染,這將使設(shè)計(jì)師能夠使用這些模型來(lái)開(kāi)發(fā)創(chuàng)造性的字體、標(biāo)志、布局等等。
為了測(cè)試圖像生成模型支持這些用例的能力,研究人員與一位專(zhuān)業(yè)的圖形設(shè)計(jì)師合作,構(gòu)建了 175 個(gè)不同的提示,要求在一系列創(chuàng)造性的風(fēng)格和設(shè)置中渲染文本。
許多提示超出了當(dāng)前模型的能力,最先進(jìn)的模型會(huì)表現(xiàn)出拼寫(xiě)錯(cuò)誤、丟棄或重復(fù)的單詞。
圖像生成實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果顯示,用于對(duì)比的 9 個(gè)圖像生成模型中在 DrawText Spell 基準(zhǔn)上的準(zhǔn)確率中,character-aware 模型(ByT5 和 Concat)無(wú)論模型尺寸大小都優(yōu)于其他模型,特別是在不常見(jiàn)單詞上。
Imagen-AR 顯示了避免 cropping 的好處,盡管訓(xùn)練時(shí)間長(zhǎng)了 6.6 倍,其仍然比字 character-aware 模型表現(xiàn)差。
模型之間的另一個(gè)明顯的區(qū)別在于它們是否在多個(gè)樣本中持續(xù)地拼錯(cuò)一個(gè)給定的單詞。
在實(shí)驗(yàn)結(jié)果中可以看出,無(wú)論抽取多少個(gè)樣本,T5 模型都有很多單詞拼錯(cuò),研究人員認(rèn)為這表明文本編碼器中缺少字符知識(shí)。
相比之下,ByT5 模型基本只會(huì)出現(xiàn)零星的錯(cuò)誤。
通過(guò)測(cè)量模型在所有四個(gè)圖像樣本中持續(xù)正確(4/4)或持續(xù)錯(cuò)誤(0/4)的比率可以量化這一觀察結(jié)果。
可以看到一個(gè)鮮明的對(duì)比,特別是在常見(jiàn)的詞上(前 1%),即 ByT5 模型從未持續(xù)錯(cuò)誤,而 T5 模型在 10% 或更多的詞上持續(xù)錯(cuò)誤。
參考資料:
-
https://arxiv.org/abs/2212.10562
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era),編輯:LRS
總結(jié)
以上是生活随笔為你收集整理的不做文盲画家,谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 英特尔酷睿 Ultra 移动处理器发布:
- 下一篇: Satechi 发布 USB4 NVMe