fastText中常见问题汇总
fastText中常見問題匯總:
1、什么是fastText
fastText是一個(gè)用于文本分類和詞向量表示的庫(kù),它能夠把文本轉(zhuǎn)化成連續(xù)的向量然后用于后續(xù)具體的語(yǔ)言任務(wù),目前教程較少!
2、為什么訓(xùn)練的模型非常大
fastText對(duì)字和字符串使用hash表,hash表的大小將直接影響模型的大小,可以通過選項(xiàng)-hash來減少詞匯hash表的大小,一個(gè)可選的好參數(shù)時(shí)20000。另一個(gè)影響模型大小重要的因素是訓(xùn)練向量的維度大小(-dim),如果維度縮小模型將大大減小,但同時(shí)也會(huì)很大程度影響模型的性能,因?yàn)橄蛄烤S度越大則捕獲的信息越多,當(dāng)然還有一種將模型變小的方法是使用量化選項(xiàng)(-quantize),命令如下所示:
./fasttext quantize -output model
3、模型中使用單詞短語(yǔ)而不是單個(gè)單詞最佳方式是什么
目前使用單詞短語(yǔ)或句子最好的方式是使用詞向量的bow(bag of words),另一種方式例如New York,我們可以將其處理成New_York也會(huì)有幫助
4、為什么fastText甚至可以為語(yǔ)料庫(kù)中未出現(xiàn)的單詞產(chǎn)生詞向量
fastText一個(gè)重要的特性便是有能力為任何單詞產(chǎn)生詞向量,即使是未出現(xiàn)的,組裝的單詞。主要是因?yàn)閒astText是通過包含在單詞中的子字符substring of character來構(gòu)建單詞的詞向量,正文中也有論述,因此這種訓(xùn)練模型的方式使得fastText可以為拼寫錯(cuò)誤的單詞或者連接組裝的單詞產(chǎn)生詞向量
5、為什么分層softmax在效果上比完全softmax略差
分層softmax是完全softmax的一個(gè)近似,分層softmax可以讓我們?cè)诖髷?shù)據(jù)集上高效的建立模型,但通常會(huì)以損失精度的幾個(gè)百分點(diǎn)為代價(jià),
6、可以在GPU上運(yùn)行fastText項(xiàng)目嗎
目前fastText僅僅可運(yùn)行在CPU上,但這也是其優(yōu)勢(shì)所在,fastText的目的便是要成為一個(gè)高效的CPU上的分類模型,可以允許模型在沒有CPU的情況下構(gòu)建
7、可以使用python語(yǔ)言或者其他語(yǔ)言使用fastText嘛
目前在GitHub上有很少的關(guān)于fastText的其他語(yǔ)言實(shí)現(xiàn)的非官方版本,但可以負(fù)責(zé)任的說,是可以用tensorflow實(shí)現(xiàn)的
8、可以在連續(xù)的數(shù)據(jù)集上使用fastText嗎
不可以,fastText僅僅是用于離散的數(shù)據(jù)集,因此無法直接在連續(xù)的數(shù)據(jù)集上使用,但是可以將連續(xù)的數(shù)據(jù)離散化后使用fastText
9、數(shù)據(jù)中存在拼寫錯(cuò)誤,我們需要對(duì)文本進(jìn)行規(guī)范化處理嗎
如果出現(xiàn)的頻率不高,沒有必要,對(duì)模型效果不會(huì)有什么影響
10、在模型訓(xùn)練時(shí)遇到了NaN,為什么會(huì)這樣
這種現(xiàn)象是可能出現(xiàn)的,很大原因是因?yàn)槟愕膶W(xué)習(xí)率太高了,可以嘗試降低一下學(xué)習(xí)率直到不再出現(xiàn)NaN
11、系統(tǒng)無法編譯fastText,怎么處理
嘗試更新一下編譯器版本,很大可能就是因?yàn)榫幾g器太舊了
12、如何完全重現(xiàn)fastText的運(yùn)行結(jié)果,為什么每次運(yùn)行的結(jié)果都有些差異
當(dāng)多次運(yùn)行fastText時(shí),因?yàn)閮?yōu)化算法異步隨機(jī)梯度下降算法或Hogwild,所以每次得到的結(jié)果都會(huì)略有不同,如果想要fastText運(yùn)行結(jié)果復(fù)現(xiàn),則必須將參數(shù)thread設(shè)置為1,這樣你就可以在每次運(yùn)行時(shí)獲得完成相同的性能
---------------------?
作者:feilong_csdn?
來源:CSDN?
原文:https://blog.csdn.net/feilong_csdn/article/details/88655927?
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上博文鏈接!
總結(jié)
以上是生活随笔為你收集整理的fastText中常见问题汇总的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vim+python3的字符串却不能使用
- 下一篇: fastText原理和文本分类实战