當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

不做文盲画家，谷歌魔改「文本编码器」：一个小操作让图像生成模型学会「拼写」

發(fā)布時(shí)間：2023/12/15 综合教程 50 生活家

生活随笔收集整理的這篇文章主要介紹了不做文盲画家，谷歌魔改「文本编码器」：一个小操作让图像生成模型学会「拼写」小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

圖像生成模型終于學(xué)會(huì)了拼寫(xiě)單詞，秘訣竟是字符特征？

過(guò)去的一年里，隨著 DALL-E 2，Stable Diffusion 等圖像生成模型的發(fā)布，text-to-image 模型生成的圖像在分辨率、質(zhì)量、文本忠實(shí)度等方面都得到了飛躍性提升，極大促進(jìn)了下游應(yīng)用場(chǎng)景的開(kāi)發(fā)，人人都成了 AI 畫(huà)家。

但相關(guān)研究表明，目前的生成模型技術(shù)仍然存在一個(gè)重大缺陷：無(wú)法在圖像中呈現(xiàn)出可靠的視覺(jué)文本。

有研究結(jié)果表明，DALL-E 2 在圖片中生成連貫文本字符上非常不穩(wěn)定，而最新發(fā)布的 Stable Diffusion 模型則是直接將「無(wú)法呈現(xiàn)可讀的文本」列為已知的限制。

字符拼寫(xiě)錯(cuò)誤：(1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.

最近 Google Research 發(fā)布了一篇新論文，試圖了解并提高圖像生成模型渲染高質(zhì)量視覺(jué)文本的能力。

論文鏈接：https://arxiv.org/ abs / 2212.10562

研究人員認(rèn)為當(dāng)下的 text-to-image 生成模型模型存在文本渲染缺陷的主要原因是缺乏字符級(jí)的輸入特征。

為了量化該輸入特征在模型生成中的影響，文章中設(shè)計(jì)了一系列控制實(shí)驗(yàn)對(duì)是否包含文本輸入特征的文本編碼器（character-aware 和 character-blind）進(jìn)行對(duì)比。

研究人員發(fā)現(xiàn)，在純文本領(lǐng)域，character-aware 模型在一個(gè)新的拼寫(xiě)任務(wù)（WikiSpell）上獲得了很大的性能收益。

將該經(jīng)驗(yàn)遷移到視覺(jué)領(lǐng)域后，研究人員訓(xùn)練了一套圖像生成模型。實(shí)驗(yàn)結(jié)果表明 character-aware 模型在一系列新的文本渲染任務(wù)（DrawText 基準(zhǔn)）中比 character-blind 更勝一籌。

并且 character-aware 模型在視覺(jué)拼寫(xiě)方面達(dá)到了更高的技術(shù)水平，盡管訓(xùn)練的樣例數(shù)量少得多，其在不常見(jiàn)的單詞上的準(zhǔn)確率仍然比競(jìng)爭(zhēng)模型高出 30 多個(gè)百分點(diǎn)。

Character-Aware 模型

語(yǔ)言模型可分為直接訪問(wèn)構(gòu)成其文本輸入字符的 character-aware 模型和無(wú)法訪問(wèn)的 character-blind 模型。

許多早期的神經(jīng)語(yǔ)言模型直接在字符上進(jìn)行操作，而不使用多字符的 token 作為標(biāo)記。

后來(lái)的模型逐漸轉(zhuǎn)向基于詞匯表的 tokenization，其中一些模型如 ELMo 仍然保留了 character-aware，但其他模型如 BERT 則放棄了字符特征以支持更有效的預(yù)訓(xùn)練。

目前，大多數(shù)廣泛使用的語(yǔ)言模型是 character-blind 的，依靠數(shù)據(jù)驅(qū)動(dòng)的子詞（subword）分割算法，如字節(jié)對(duì)編碼（BPE）來(lái)生成子詞 pieces 作為詞匯表。

雖然這些方法對(duì)于不常見(jiàn)的序列可以退回到字符級(jí)表示，但它們?cè)谠O(shè)計(jì)上仍然會(huì)將常見(jiàn)的字符序列壓縮成不可分割的單元。

這篇論文的主要目的是試圖了解并提高圖像生成模型渲染高質(zhì)量視覺(jué)文本的能力。

為此，研究人員首先孤立地研究了當(dāng)下文本編碼器的拼寫(xiě)能力，從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，盡管 character-blind 文本編碼器很受歡迎，但它們沒(méi)有收到關(guān)于其輸入的字符級(jí)構(gòu)成的直接信號(hào)，導(dǎo)致其拼寫(xiě)能力有限。

研究人員還測(cè)試了不同規(guī)模、架構(gòu)、輸入表示、語(yǔ)言和調(diào)整方法的文本編碼器的拼寫(xiě)能力。

這篇論文首次記錄了 character-blind 模型通過(guò)網(wǎng)絡(luò)預(yù)訓(xùn)練誘導(dǎo)出強(qiáng)大的拼寫(xiě)知識(shí)（準(zhǔn)確率 > 99%）的神奇能力，但實(shí)驗(yàn)結(jié)果表明這項(xiàng)能力在英語(yǔ)之外的語(yǔ)言中并沒(méi)有得到很好的泛化，而且只有在超過(guò) 100B 參數(shù)的規(guī)模下才能實(shí)現(xiàn)，所以對(duì)于大多數(shù)應(yīng)用場(chǎng)景是不可行的。

另一方面，character-aware 的文本編碼器能夠在更小的尺度上實(shí)現(xiàn)強(qiáng)大的拼寫(xiě)能力。

在將這些發(fā)現(xiàn)應(yīng)用于圖像生成場(chǎng)景時(shí)，研究人員訓(xùn)練了一系列 character-aware 的文本到圖像的模型，并證明它們?cè)诂F(xiàn)有的和新的文本渲染的評(píng)估中明顯優(yōu)于字符盲目的模型。

但對(duì)于純字符級(jí)模型來(lái)說(shuō)，雖然文本渲染的性能提升了，但對(duì)于不涉及視覺(jué)文本的 prompt，圖像-文本對(duì)齊度則會(huì)下降。

為了緩解這一問(wèn)題，研究人員建議將字符級(jí)和 token 級(jí)的輸入表征結(jié)合起來(lái)，從而可以實(shí)現(xiàn)最佳的性能。

WikiSpell 基準(zhǔn)

由于文本到圖像的生成模型依賴(lài)于文本編碼器來(lái)產(chǎn)生用于解碼的表征，研究人員首先從 Wiktionary 中采樣一些單詞創(chuàng)建了 WikiSpell 基準(zhǔn)，然后基于此數(shù)據(jù)集在一個(gè)純文本的拼寫(xiě)評(píng)估任務(wù)來(lái)探索文本編碼器的能力。

對(duì)于 WikiSpell 中的每個(gè)樣例，模型的輸入是一個(gè)單詞，預(yù)期的輸出是它的具體拼寫(xiě)（通過(guò)在每個(gè) Unicode 字符之間插入空格來(lái)生成）。

由于該文章僅對(duì)研究一個(gè)詞的頻率和模型的拼寫(xiě)能力之間的關(guān)系感興趣，所以研究人員根據(jù)單詞在 mC4 語(yǔ)料庫(kù)中出現(xiàn)的頻率，將 Wiktionary 中的詞分成五個(gè)互不重疊的桶：最頻繁的前 1% 的詞，最頻繁的 1-10% 的詞，10-20% 的詞，20-30% 的詞，以及最低的 50% 的詞（包括在語(yǔ)料庫(kù)中從未出現(xiàn)過(guò)的詞）。

然后從每個(gè)桶中均勻地抽取 1000 個(gè)詞來(lái)創(chuàng)建一個(gè)測(cè)試集（以及一個(gè)類(lèi)似的開(kāi)發(fā)集）。

最后通過(guò)結(jié)合兩部分建立了一個(gè)由 10,000 個(gè)詞組成的訓(xùn)練集：5,000 個(gè)從最底層的 50% 桶（最不常見(jiàn)的詞）中統(tǒng)一取樣，另外 5,000 個(gè)根據(jù)它們?cè)?mC4 中的頻率按比例取樣（從而使這一半的訓(xùn)練集偏向頻繁的詞）。

研究人員將任何被選入開(kāi)發(fā)集或測(cè)試集的詞排除在訓(xùn)練集之外，因此評(píng)估結(jié)果總是針對(duì)被排除的詞。

除了英語(yǔ)外，研究人員還對(duì)其他六種語(yǔ)言（阿拉伯語(yǔ)、漢語(yǔ)、芬蘭語(yǔ)、韓語(yǔ)、俄語(yǔ)、泰語(yǔ)）進(jìn)行評(píng)估，選擇這些語(yǔ)言是為了涵蓋影響模型學(xué)習(xí)拼寫(xiě)能力的各種特性，對(duì)每一種語(yǔ)言的評(píng)估都重復(fù)上述數(shù)據(jù)集構(gòu)建過(guò)程。

文本生成實(shí)驗(yàn)

研究人員使用 WikiSpell 基準(zhǔn)來(lái)評(píng)估多種預(yù)訓(xùn)練的純文本模型在不同規(guī)模上的表現(xiàn)，包括 T5（一個(gè)在英語(yǔ)數(shù)據(jù)上預(yù)訓(xùn)練的 character-blind 編碼解碼器模型）；mT5（與 T5 類(lèi)似，但在超過(guò) 100 種語(yǔ)言上預(yù)訓(xùn)練）；ByT5（mT5 的 character-aware 版本，直接在 UTF-8 字節(jié)序列上操作）；以及 PaLM（一個(gè)規(guī)模更大的解碼模型，主要是在英語(yǔ)上預(yù)訓(xùn)練的）。

在純英語(yǔ)和多語(yǔ)言的實(shí)驗(yàn)結(jié)果中，可以發(fā)現(xiàn) character-blind 模型 T5 和 mT5 在包含 Top-1% 最頻繁詞匯的桶上的表現(xiàn)要差很多。

這個(gè)結(jié)果似乎是反直覺(jué)的，因?yàn)槟Ｐ屯ǔＴ跀?shù)據(jù)中頻繁出現(xiàn)的例子上表現(xiàn)最好，但是由于 subword 詞匯的訓(xùn)練方式，頻繁出現(xiàn)的詞通常被表示為一個(gè)單一的原子標(biāo)記（或少量的標(biāo)記），事實(shí)上也是如此：在英語(yǔ)前 1% 的桶中，87% 的詞被 T5 的詞匯表示為一個(gè)子詞標(biāo)記。

因此，較低的拼寫(xiě)準(zhǔn)確性分?jǐn)?shù)表明，T5 的編碼器沒(méi)有保留足夠的關(guān)于其詞匯中 subword 的拼寫(xiě)信息。

其次，對(duì)于 character-blind 模型，規(guī)模是影響拼寫(xiě)能力的一個(gè)重要因素。T5 和 mT5 都隨著規(guī)模的增加而逐漸變好，但即使在 XXL 規(guī)模下，這些模型也沒(méi)有表現(xiàn)出特別強(qiáng)的拼寫(xiě)能力。

只有當(dāng) character-blind 模型達(dá)到 PaLM 的規(guī)模時(shí)，才開(kāi)始看到近乎完美的拼寫(xiě)能力：540B 參數(shù)的 PaLM 模型在英語(yǔ)的所有頻率桶中都達(dá)到了 > 99% 的準(zhǔn)確率，盡管它在提示中只看到 20 個(gè)例子（而 T5 顯示的是 1000 個(gè)微調(diào)例子）。

然而，PaLM 在其他語(yǔ)言上的表現(xiàn)較差，可能是由于這些語(yǔ)言的預(yù)訓(xùn)練數(shù)據(jù)少得多。

對(duì) ByT5 的實(shí)驗(yàn)表明，character-aware 模型表現(xiàn)出更強(qiáng)大的拼寫(xiě)能力。ByT5 在 Base 和 Large 尺寸下的表現(xiàn)僅略微落后于 XL 和 XXL（盡管仍然至少在 90% 的范圍內(nèi)），而且一個(gè)詞的頻率似乎對(duì) ByT5 的拼寫(xiě)能力沒(méi)有太大影響。

ByT5 的拼寫(xiě)性能遠(yuǎn)遠(yuǎn)超過(guò)了 (m) T5 的結(jié)果，甚至與參數(shù)多于 100 倍的 PaLM 的英語(yǔ)表現(xiàn)相當(dāng)，并且超過(guò)了 PaLM 在其他語(yǔ)言上的表現(xiàn)。

從而可知 ByT5 編碼器保留了相當(dāng)多的字符級(jí)信息，而且這些信息可以根據(jù)解碼任務(wù)的需要從這些凍結(jié)的參數(shù)中檢索出來(lái)。

DrawText 基準(zhǔn)

從 2014 年發(fā)布的 COCO 數(shù)據(jù)集到 2022 年的 DrawBench 基準(zhǔn)，從 FID, CLIP 得分到人類(lèi)偏好等指標(biāo)，如何評(píng)估 text-to-image 模型一直是一個(gè)重要的研究課題。

但目前在文本渲染和拼寫(xiě)評(píng)估方面一直缺乏相關(guān)工作。

為此，研究人員提出了一個(gè)新的基準(zhǔn) DrawText，旨在全面衡量文本到圖像模型的文本渲染質(zhì)量。

DrawText 基準(zhǔn)由兩部分組成，分別測(cè)量模型能力的不同維度：

1）DrawText Spell，通過(guò)大量的英語(yǔ)單詞集合的普通單詞渲染進(jìn)行評(píng)估；

研究人員從英語(yǔ) WikiSpell 頻率桶中各抽取 100 個(gè)單詞，并將它們插入一個(gè)標(biāo)準(zhǔn)模板中，總共構(gòu)建了 500 個(gè)提示。

對(duì)于每個(gè) prompt，從候選模型中抽取 4 張圖片，并使用人類(lèi)評(píng)分和基于光學(xué)字符識(shí)別（OCR）的指標(biāo)對(duì)其進(jìn)行評(píng)估。

2）DrawText Creative，通過(guò)視覺(jué)效果的文本渲染進(jìn)行評(píng)估。

視覺(jué)文本并不局限于像街道標(biāo)志那樣的常見(jiàn)場(chǎng)景，文字可以以多種形式出現(xiàn)，如潦草的、繪畫(huà)的、雕刻的、雕塑的，等等。

如果圖像生成模型支持靈活而準(zhǔn)確的文本渲染，這將使設(shè)計(jì)師能夠使用這些模型來(lái)開(kāi)發(fā)創(chuàng)造性的字體、標(biāo)志、布局等等。

為了測(cè)試圖像生成模型支持這些用例的能力，研究人員與一位專(zhuān)業(yè)的圖形設(shè)計(jì)師合作，構(gòu)建了 175 個(gè)不同的提示，要求在一系列創(chuàng)造性的風(fēng)格和設(shè)置中渲染文本。

許多提示超出了當(dāng)前模型的能力，最先進(jìn)的模型會(huì)表現(xiàn)出拼寫(xiě)錯(cuò)誤、丟棄或重復(fù)的單詞。

圖像生成實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果顯示，用于對(duì)比的 9 個(gè)圖像生成模型中在 DrawText Spell 基準(zhǔn)上的準(zhǔn)確率中，character-aware 模型（ByT5 和 Concat）無(wú)論模型尺寸大小都優(yōu)于其他模型，特別是在不常見(jiàn)單詞上。

Imagen-AR 顯示了避免 cropping 的好處，盡管訓(xùn)練時(shí)間長(zhǎng)了 6.6 倍，其仍然比字 character-aware 模型表現(xiàn)差。

模型之間的另一個(gè)明顯的區(qū)別在于它們是否在多個(gè)樣本中持續(xù)地拼錯(cuò)一個(gè)給定的單詞。

在實(shí)驗(yàn)結(jié)果中可以看出，無(wú)論抽取多少個(gè)樣本，T5 模型都有很多單詞拼錯(cuò)，研究人員認(rèn)為這表明文本編碼器中缺少字符知識(shí)。

相比之下，ByT5 模型基本只會(huì)出現(xiàn)零星的錯(cuò)誤。

通過(guò)測(cè)量模型在所有四個(gè)圖像樣本中持續(xù)正確（4/4）或持續(xù)錯(cuò)誤（0/4）的比率可以量化這一觀察結(jié)果。

可以看到一個(gè)鮮明的對(duì)比，特別是在常見(jiàn)的詞上（前 1%），即 ByT5 模型從未持續(xù)錯(cuò)誤，而 T5 模型在 10% 或更多的詞上持續(xù)錯(cuò)誤。

參考資料：

https://arxiv.org/abs/2212.10562

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era），編輯：LRS

總結(jié)

以上是生活随笔為你收集整理的不做文盲画家，谷歌魔改「文本编码器」：一个小操作让图像生成模型学会「拼写」的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：英特尔酷睿 Ultra 移动处理器发布：
下一篇： Satechi 发布 USB4 NVMe