日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

特征选择---文本分类:叉方统计量

發布時間:2025/3/21 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 特征选择---文本分类:叉方统计量 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

counts:計數。 記錄樣本集中每個樣本的每個屬性的在每個類中出現的加權次數

counts[data.numAttributes()][numValues + 1][numClasses + 1]

?

m_ChiSquareds[data.numAttributes];? //記錄每個屬性的叉方值

for(int i = 0; i < data.numAttributes(); i++)

??? m_ChiSquareds[i] = chiVal(counts[i]);

?

chiVal:nrows = matrix.length; //行數ncols = matrix[0].length; //列數rtotal = new double [nrows]; //行和ctotal = new double [ncols]; //列和for (row = 0; row < nrows; row++) {for (col = 0; col < ncols; col++) {rtotal[row] += matrix[row][col];ctotal[col] += matrix[row][col];n += matrix[row][col]; //計算每行之和、每列之和、所有和n}}df = (nrows - 1)*(ncols - 1); //自由度if (df <= 0) {return 0;}chival = 0.0;for (row = 0; row < nrows; row++) {if (Utils.gr(rtotal[row], 0)) {for (col = 0; col < ncols; col++) {if (Utils.gr(ctotal[col], 0)) {//大于0expect = (ctotal[col] * rtotal[row]) / n; //該cell的期望值chival += chiCell (matrix[row][col], expect);}}}}return chival;chiCell://freq 【in 第一個參數】//exptcted【in 第二個參數】// Cell in empty row and column?if (Utils.smOrEq(expected, 0)) { //expteced與0很接近return 0;}// Compute difference between observed and expected valuedouble diff = Math.abs(freq - expected);// Return chi-value for the cellreturn (diff * diff / expected);

?

?

假設chiVal的輸入有3行3列, 如下:

1? 2? 3

4? 2? 1

2? 3? 3

則計算行和列和總和之后為

1? 2? 3???? 6

4? 2? 1???? 7

2? 3? 3???? 8

?

7? 7? 7???? 21

那么e[0][0]的期望值是多少呢? 已知行和分別為6、7、8, 列和分別為7、7、7的情況下。

e[0][0] = r[0] * c[0] / n,?? diff[i][j] = |??? [i][j] - e[i][j]???? |

那么該cell的chiVal值就是? diff[i][j]^2/e[i][j]

整個矩陣的chiVal就是各cell的chiVal之和

?

?

那么, 這個chiVal衡量的是什么東西呢, 如何用來做特征選擇?

http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html

?

diff衡量的是觀測頻度與期望頻度的差

diff^2衡量的是方差

diff^2/E, 類似于相對方差

?

?

?

開方檢驗最基本的思想就是通過觀察實際值與理論值的偏差來確定理論的正確與否。具體做的時候常常先假設兩個變量確實是獨立的(行話就叫做“原假設”),然后觀察實際值(也可以叫做觀察值)與理論值(這個理論值是指“如果兩者確實獨立”的情況下應該有的值)的偏差程度,如果偏差足夠小,我們就認為誤差是很自然的樣本誤差,是測量手段不夠精確導致或者偶然發生的,兩者確確實實是獨立的,此時就接受原假設;如果偏差大到一定程度,使得這樣的誤差不太可能是偶然產生或者測量不精確所致,我們就認為兩者實際上是相關的,即否定原假設,而接受備擇假設

?

在文本分類問題的特征選擇階段,我們主要關心一個詞t(一個隨機變量)與一個類別c(另一個隨機變量)之間是否相互獨立?如果獨立,就可以說詞t對類別c完全沒有表征作用,即我們根本無法根據t出現與否來判斷一篇文檔是否屬于c這個分類。但與最普通的開方檢驗不同,我們不需要設定閾值,因為很難說詞t和類別c關聯到什么程度才算是有表征作用,我們只想借用這個方法來選出一些最最相關的即可。

此時我們仍然需要明白對特征選擇來說原假設是什么,因為計算出的開方值越大,說明對原假設的偏離越大,我們越傾向于認為原假設的反面情況是正確的。我們能不能把原假設定為“詞t與類別c相關“?原則上說當然可以,這也是一個健全的民主主義社會賦予每個公民的權利(笑),但此時你會發現根本不知道此時的理論值該是多少!你會把自己繞進死胡同。所以我們一般都使用”詞t與類別c不相關“來做原假設。選擇的過程也變成了為每個詞計算它與類別c的開方值,從大到小排個序(此時開方值越大越相關),取前k個就可以(k值可以根據自己的需要選,這也是一個健全的民主主義社會賦予每個公民的權利)。

文本特征選擇中, 計算每個屬性的叉方值, 取最大的前k個

?

?

?

?

?

?

總結

以上是生活随笔為你收集整理的特征选择---文本分类:叉方统计量的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 激情第四色 | 亚洲深夜福利 | 在线观看高h | 亚洲国产情侣 | 日本不卡一二 | 精品久久电影 | 国产成年人视频网站 | 岛国av在线 | 亚洲欧美日韩国产精品 | 欧美脚交 | 性欧美hd调教 | 欧美日韩在线播放视频 | 日韩美女网站 | 亚洲成人欧美 | 台湾佬成人中文网222vvv | 国产91精品看黄网站在线观看 | 色播在线视频 | 中文字幕dvd | 久久国产福利一区 | 日韩成人久久 | 魔性诱惑| 亚洲天堂欧美 | 男女做受视频 | 丁香花在线影院观看在线播放 | 成人性视频免费网站 | 亚洲综合激情网 | 老司机伊人| 精品久久久久久中文字幕 | 成人拍拍拍 | 大陆一级黄色片 | 欧美日韩中文 | 日本打屁股网站 | 99热在线观看免费 | 欧美性网址 | 日产精品久久久久久久蜜臀 | 亚洲av无码精品一区二区 | 亚洲一区二区自偷自拍 | 不卡一区二区三区四区 | 在线观看亚洲精品视频 | 韩日精品在线观看 | 奇米在线观看 | 91黄漫| 亚洲综合第一 | 撒尿free性hd | 国产精品xxx在线观看 | www.成人精品 | 有码在线视频 | 一级免费黄色片 | 在线成人一区二区 | 久草97| 妺妺窝人体色777777 | 日本色偷偷 | 99人人爽| 伦理片一区二区三区 | 色戒在线免费 | 肉大榛一进一出免费视频 | 亚洲无套 | 岛国av网址| 毛片免费全部无码播放 | 国产无毛片 | 美女被啪羞羞粉色视频 | 久久精品国产久精国产 | 亚洲av永久无码国产精品久久 | 久久91亚洲精品中文字幕奶水 | 色老头在线观看 | 欧美一级淫片免费视频黄 | 亚洲a图| 免费毛片网 | 免费一级suv好看的国产网站 | 久久久夜夜| 欧美日本成人 | 免费在线观看视频a | 97影视| 黄色一级片在线播放 | 精品国产亚洲一区二区麻豆 | 粗大黑人巨茎大战欧美成人 | 女人的黄色片 | 久久天天躁狠狠躁夜夜躁 | 最新中文字幕第一页 | 国产一区不卡在线 | 日韩av自拍偷拍 | 人妻洗澡被强公日日澡电影 | av狠狠| 久久精品综合网 | 嫩草网站在线观看 | 欧美青草视频 | 日韩一级视频 | 久久婷婷综合色丁香五月 | 91热爆视频| 亚洲精品久久久中文字幕痴女 | 免费超爽大片黄 | 91精品免费| 亚洲逼逼 | 午夜色综合| 日韩av高清无码 | 欧美乱做爰xxxⅹ久久久 | 国产aaaaaaa| 永久免费成人代码 | 亚洲天堂手机在线观看 |