日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

mat 和asmatrix的区别_R语言的稀疏矩阵太大可能就不能用as.matrix了

發(fā)布時(shí)間:2024/8/23 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 mat 和asmatrix的区别_R语言的稀疏矩阵太大可能就不能用as.matrix了 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一個(gè)很大的矩陣, 320127 行, 8189列,假如用一個(gè)全為0的普通矩陣來(lái)存儲(chǔ),需要用到9.8Gb

cols

rows

mat

print(object.size(mat), unit="GB")

# 19.5 Gb

mat

print(object.size(mat), unit="GB")

# 9.8 Gb這里的0其實(shí)也要區(qū)分

這里的0L表示數(shù)據(jù)類型是integer,默認(rèn)是numeric. 這兩者最大的區(qū)別在于,當(dāng)你用320127L * 8189L,你會(huì)得到一個(gè)NA,而320127 * 8189不會(huì)

如果用稀疏矩陣保存的話

mat

print(object.size(mat), unit="GB")

#0 Gb

dim(mat)

#[1] 320127 8189

雖然行列數(shù)一樣,但是稀疏矩陣幾乎不占用任何內(nèi)存。而且普通矩陣支持的運(yùn)算,比如說(shuō)求行和,求列和,提取元素的操作,在稀疏矩陣矩陣也是可以的,只不過(guò)會(huì)多花一點(diǎn)點(diǎn)時(shí)間而已。同時(shí)還有很多R包支持稀疏矩陣,比如說(shuō)glmnet,一個(gè)做lasso回歸的R包。

雖然看起來(lái)稀疏矩陣很美好,但是在R語(yǔ)言中那么大的稀疏矩陣的部分操作會(huì)出錯(cuò)

> mat2

Error in asMethod(object) :

Cholmod error 'problem too large' at file ../Core/cholmod_dense.c, line 105

即便是我想把它用as.matrix轉(zhuǎn)回普通矩陣,它也報(bào)錯(cuò)了

> mat3

Error in asMethod(object) :

Cholmod error 'problem too large' at file ../Core/cholmod_dense.c, line 105

既然現(xiàn)成的as.matrix無(wú)法處理,那怎么辦呢?最簡(jiǎn)單粗暴的方法就是新建一個(gè)普通矩陣,然后對(duì)稀疏矩陣進(jìn)行遍歷,將稀疏矩陣的值挨個(gè)放回到的普通矩陣上。

mat2

for (i in seq_len(nrow(mat))){

for (j in seq_len(ncol(mat))){

mat2[i][j]

}

}

那么這大概要多少時(shí)間呢?反正我的電腦跑了2個(gè)小時(shí)也沒(méi)有跑完,所以你也別測(cè)試了。

那有沒(méi)有辦法可以加速呢?加速的方法就是減少for循環(huán)的次數(shù),因?yàn)槲覀兪且粋€(gè)稀疏矩陣,大部分的空間都是0,我們只需要將不為0的部分賦值給新矩陣即可。

這需要我們?nèi)チ私庀孪∈杈仃嚨臄?shù)據(jù)結(jié)構(gòu)

> str(mat)

Formal class 'dgCMatrix' [package "Matrix"] with 6 slots

..@ i : int(0)

..@ p : int [1:8190] 0 0 0 0 0 0 0 0 0 0 ...

..@ Dim : int [1:2] 320127 8189

..@ Dimnames:List of 2

.. ..$ : NULL

.. ..$ : NULL

..@ x : num(0)

..@ factors : list()

@Dim記錄矩陣的維度信息, @Dimnames記錄行名和列名, @x記錄不為0的數(shù)值。@i記錄不為0的行索引,和@x對(duì)應(yīng),這里全為0,所以不記錄。@p比較復(fù)雜,并不是簡(jiǎn)單的記錄不為0值的列索引,看文檔也不知道是啥,不過(guò)通過(guò)檢索可以找到它和不為0值的列索引的換算關(guān)系。

因此代碼優(yōu)化為

row_pos

col_pos

val

for (i in seq_along(val)){

tmp[row_pos[i],col_pos[i]]

}

可以將其封裝為一個(gè)函數(shù)

as_matrix

tmp

row_pos

col_pos

val

for (i in seq_along(val)){

tmp[row_pos[i],col_pos[i]]

}

row.names(tmp)

colnames(tmp)

return(tmp)

}

總結(jié)

以上是生活随笔為你收集整理的mat 和asmatrix的区别_R语言的稀疏矩阵太大可能就不能用as.matrix了的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。