當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计学习导论：基于R应用——第二章习题

發(fā)布時(shí)間：2025/4/16 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了统计学习导论：基于R应用——第二章习题小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目前在看統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論：基于R應(yīng)用，覺得這本書非常適合入門，打算把課后習(xí)題全部做一遍，記錄在此博客中。

第二章習(xí)題

(a) 當(dāng)樣本量n非常大，預(yù)測(cè)變量數(shù)p很小時(shí)，這樣容易欠擬合，所以一個(gè)光滑度更高的學(xué)習(xí)模型更好。

(b) 當(dāng)樣本量n非常小，預(yù)測(cè)變量數(shù)p很大時(shí)，這樣容易過擬合，所以一個(gè)光滑度更小的學(xué)習(xí)模型更好。

(d) 在這里，方差是指用一個(gè)不同的訓(xùn)練數(shù)據(jù)集估計(jì)f時(shí)，估計(jì)函數(shù)的改變量。一般來說，光滑度越高的統(tǒng)計(jì)模型有更高的方差，所以這里選擇一個(gè)光滑度小的模型。

這個(gè)題目首先給人的感覺是開放性的，看你通過下面信息能夠推斷或者預(yù)測(cè)什么結(jié)果。

在這里，預(yù)測(cè)是指輸入X得到Y(jié)，而推斷是指理解Y作為X1,X2...Xp的函數(shù)是怎么變化。回歸和分類的定義就不多說了。

(a)給人的直觀感覺是回歸問題。預(yù)測(cè)問題在這里似乎沒有什么意義，反而是可以考慮推斷。比如，可以推斷員工人數(shù)，產(chǎn)業(yè)類型以及CEO工資來和利潤的關(guān)系。

(b)這里明顯是有成功和失敗兩種狀態(tài)，所以是分類問題，而且是預(yù)測(cè)新產(chǎn)品。

(c)這里也是回歸和預(yù)測(cè)問題。比較直白。

(a) 圖書里有，關(guān)鍵是理解偏差和方差的區(qū)別吧。

(b) 把圖畫出來了就差不多理解啦。

又是找例子題，醉了~

5.?

這個(gè)題的知識(shí)點(diǎn)和第一題類似。

(a)一個(gè)光滑度高的回歸模型或者分類模型，能夠更好的擬合非線性模型，偏差更小。但是模型越光滑，所需要計(jì)算的參數(shù)就越多，而且容易過擬合，方差更大。當(dāng)我們更想預(yù)測(cè)，而不是推斷的時(shí)候，我們優(yōu)先考慮光滑度高的模型。

(b)一個(gè)光滑度低的回歸模型或者分類模型，上述相反~

中文版15，16也原話。

(a)參數(shù)方法是一種基于模型估計(jì)的兩階段方法。優(yōu)點(diǎn)是，它把估計(jì)f的問題簡化到估計(jì)一組參數(shù)，對(duì)f假設(shè)一個(gè)具體的參數(shù)形式將簡化對(duì)f的估計(jì)，因?yàn)楣烙?jì)參數(shù)是更為容易的，不需要擬合任意一個(gè)函數(shù)f。缺點(diǎn)是，選定的模型并非與實(shí)際的f形式上一致，而且還有過擬合的可能情況。

(b)非參數(shù)方法不需要對(duì)函數(shù)f的形式實(shí)現(xiàn)做明確說明的假設(shè)。相反，這類方法追求的接近數(shù)據(jù)點(diǎn)的估計(jì)，估計(jì)函數(shù)在去粗和光滑處理后盡量可能與更多的數(shù)據(jù)點(diǎn)接近。優(yōu)點(diǎn)是，不限定函數(shù)f的具體形式，可以更大的范圍選擇更適宜的f形狀的估計(jì)。缺點(diǎn)是，無法將估計(jì)f的問題簡單到對(duì)少數(shù)參數(shù)進(jìn)行估計(jì)的問題，所以往往需要大量的觀察點(diǎn)。

7.
(a)歐幾里德距離：|x| = sqrt( x[1]^2 + x[2]^2 + … + x[n]^2 )

所以計(jì)算結(jié)果是：1.3、2.2、3.sqrt(10)、4.sqrt(5)、5.sqrt(2)、6.sqrt(3)

(b) Green。最近的點(diǎn)obs.5是綠色。

(d) 小。書29頁的圖可以知道，1/K越大，光滑度越高，也就越非線性。所以K應(yīng)該小。

題目略簡單。提示很多。

(a)
college = read.csv("College.csv")
(b)
fix(college)
rownames(college) = college[,1]
college = college[,-1]
fix(college)
(c)
i.summary(college)
ii.pairs(college[,1:10])
iii.plot(college$Private, college$Outstate)
iv.
Elite = rep("No", nrow(college))
Elite[college$Top10perc>50] = "Yes"
Elite = as.factor(Elite)
college = data.frame(college, Elite)
summary(college$Elite)
plot(college$Elite, college$Outstate)
v.
par(mfrow=c(2,2))
hist(college$Apps)
hist(college$perc.alumni, col=2)
hist(college$S.F.Ratio, col=3, breaks=10)
hist(college$Expend, breaks=100)
vi.自由發(fā)揮

這個(gè)題中文版的(d)翻譯錯(cuò)了，我們按照原書來

Auto = read.table("Auto.data.txt", header = T ,na.strings="?")
Auto = na.omit(Auto)
dim(Auto)
summary(Auto)
(a)
quantitative: mpg, cylinders, displacement, horsepower, weight, acceleration, year
qualitative: name, origin
(b)
sapply(Auto[, 1:7], range)
(c)
sapply(Auto[, 1:7], mean)
sapply(Auto[, 1:7], sd)
(d)
newAuto = Auto[-(10:85),]
sapply(newAuto[, 1:7], range)
sapply(newAuto[, 1:7], mean)
sapply(newAuto[, 1:7], sd)
(e)
自己感興趣哪個(gè)就plot哪個(gè)吧
(f)
pairs(Auto)
看結(jié)果感覺horsepower和weight可以作為變量來做預(yù)測(cè)

10.

(a)
library(MASS)
?Boston
dim(Boston)
(b)
pairs(Boston)
(c)
從pairs(Boston)的結(jié)果來看，感覺crim和age, dis, rad, tax, ptratio有較大的相關(guān)性
plot(Boston$age, Boston$crim)
plot(Boston$dis, Boston$crim)
plot(Boston$rad, Boston$crim)
plot(Boston$tax, Boston$crim)
plot(Boston$ptratio, Boston$crim)
(d)
par(mfrow=c(1,3))
hist(Boston$crim[Boston$crim>1], breaks=25)
hist(Boston$tax, breaks=25)
hist(Boston$ptratio, breaks=25)
(e)
dim(subset(Boston, chas == 1))
(f)
median(Boston$ptratio)
(g)
t(subset(Boston, medv == min(Boston$medv)))
summary(Boston)
(h)
dim(subset(Boston, rm > 7))
dim(subset(Boston, rm > 8))
summary(subset(Boston, rm > 8))
summary(Boston)

轉(zhuǎn)載于:https://www.cnblogs.com/-Sai-/p/5202236.html

總結(jié)

以上是生活随笔為你收集整理的统计学习导论：基于R应用——第二章习题的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Mycat探索之旅（3）----Myca
下一篇： 15、Cocos2dx 3.0游戏开发找

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

统计学习导论：基于R应用——第二章习题

總結(jié)