统计学习导论:基于R应用——第二章习题
目前在看統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論:基于R應(yīng)用,覺得這本書非常適合入門,打算把課后習(xí)題全部做一遍,記錄在此博客中。
?
第二章習(xí)題
?
1.
(a) 當(dāng)樣本量n非常大,預(yù)測(cè)變量數(shù)p很小時(shí),這樣容易欠擬合,所以一個(gè)光滑度更高的學(xué)習(xí)模型更好。
(b) 當(dāng)樣本量n非常小,預(yù)測(cè)變量數(shù)p很大時(shí),這樣容易過擬合,所以一個(gè)光滑度更小的學(xué)習(xí)模型更好。
(c) 當(dāng)預(yù)測(cè)變量與響應(yīng)變量之間的關(guān)系是非線性時(shí),說明光滑度小的模型會(huì)容易欠擬合,所以光滑度高的模型更適合。
(d) 在這里,方差是指用一個(gè)不同的訓(xùn)練數(shù)據(jù)集估計(jì)f時(shí),估計(jì)函數(shù)的改變量。一般來說,光滑度越高的統(tǒng)計(jì)模型有更高的方差,所以這里選擇一個(gè)光滑度小的模型。
2.
這個(gè)題目首先給人的感覺是開放性的,看你通過下面信息能夠推斷或者預(yù)測(cè)什么結(jié)果。
在這里,預(yù)測(cè)是指輸入X得到Y(jié),而推斷是指理解Y作為X1,X2...Xp的函數(shù)是怎么變化。回歸和分類的定義就不多說了。
(a)給人的直觀感覺是回歸問題。預(yù)測(cè)問題在這里似乎沒有什么意義,反而是可以考慮推斷。比如,可以推斷員工人數(shù),產(chǎn)業(yè)類型以及CEO工資來和利潤的關(guān)系。
(b)這里明顯是有成功和失敗兩種狀態(tài),所以是分類問題,而且是預(yù)測(cè)新產(chǎn)品。
(c)這里也是回歸和預(yù)測(cè)問題。比較直白。
?
3.
(a) 圖書里有,關(guān)鍵是理解偏差和方差的區(qū)別吧。
(b) 把圖畫出來了就差不多理解啦。
4.
又是找例子題,醉了~
5.?
這個(gè)題的知識(shí)點(diǎn)和第一題類似。
(a)一個(gè)光滑度高的回歸模型或者分類模型,能夠更好的擬合非線性模型,偏差更小。但是模型越光滑,所需要計(jì)算的參數(shù)就越多,而且容易過擬合,方差更大。當(dāng)我們更想預(yù)測(cè),而不是推斷的時(shí)候,我們優(yōu)先考慮光滑度高的模型。
(b)一個(gè)光滑度低的回歸模型或者分類模型,上述相反~
6.
中文版15,16也原話。
(a)參數(shù)方法是一種基于模型估計(jì)的兩階段方法。優(yōu)點(diǎn)是,它把估計(jì)f的問題簡化到估計(jì)一組參數(shù),對(duì)f假設(shè)一個(gè)具體的參數(shù)形式將簡化對(duì)f的估計(jì),因?yàn)楣烙?jì)參數(shù)是更為容易的,不需要擬合任意一個(gè)函數(shù)f。缺點(diǎn)是,選定的模型并非與實(shí)際的f形式上一致,而且還有過擬合的可能情況。
(b)非參數(shù)方法不需要對(duì)函數(shù)f的形式實(shí)現(xiàn)做明確說明的假設(shè)。相反,這類方法追求的接近數(shù)據(jù)點(diǎn)的估計(jì),估計(jì)函數(shù)在去粗和光滑處理后盡量可能與更多的數(shù)據(jù)點(diǎn)接近。優(yōu)點(diǎn)是,不限定函數(shù)f的具體形式,可以更大的范圍選擇更適宜的f形狀的估計(jì)。缺點(diǎn)是,無法將估計(jì)f的問題簡單到對(duì)少數(shù)參數(shù)進(jìn)行估計(jì)的問題,所以往往需要大量的觀察點(diǎn)。
7.
(a)歐幾里德距離:|x| = sqrt( x[1]^2 + x[2]^2 + … + x[n]^2 )
所以計(jì)算結(jié)果是:1.3、2.2、3.sqrt(10)、4.sqrt(5)、5.sqrt(2)、6.sqrt(3)
(b) Green。最近的點(diǎn)obs.5是綠色。
(c) Red.?
(d) 小。書29頁的圖可以知道,1/K越大,光滑度越高,也就越非線性。所以K應(yīng)該小。
?
8.
題目略簡單。提示很多。
(a)
college = read.csv("College.csv")
(b)
fix(college)
rownames(college) = college[,1]
college = college[,-1]
fix(college)
(c)
i.summary(college)
ii.pairs(college[,1:10])
iii.plot(college$Private, college$Outstate)
iv.
Elite = rep("No", nrow(college))
Elite[college$Top10perc>50] = "Yes"
Elite = as.factor(Elite)
college = data.frame(college, Elite)
summary(college$Elite)
plot(college$Elite, college$Outstate)
v.
par(mfrow=c(2,2))
hist(college$Apps)
hist(college$perc.alumni, col=2)
hist(college$S.F.Ratio, col=3, breaks=10)
hist(college$Expend, breaks=100)
vi.自由發(fā)揮
?
9.
這個(gè)題中文版的(d)翻譯錯(cuò)了,我們按照原書來
Auto = read.table("Auto.data.txt", header = T ,na.strings="?")
Auto = na.omit(Auto)
dim(Auto)
summary(Auto)
(a)
quantitative: mpg, cylinders, displacement, horsepower, weight, acceleration, year
qualitative: name, origin
(b)
sapply(Auto[, 1:7], range)
(c)
sapply(Auto[, 1:7], mean)
sapply(Auto[, 1:7], sd)
(d)
newAuto = Auto[-(10:85),]
sapply(newAuto[, 1:7], range)
sapply(newAuto[, 1:7], mean)
sapply(newAuto[, 1:7], sd)
(e)
自己感興趣哪個(gè)就plot哪個(gè)吧
(f)
pairs(Auto)
看結(jié)果感覺horsepower和weight可以作為變量來做預(yù)測(cè)
?
10.
(a)
library(MASS)
?Boston
dim(Boston)
(b)
pairs(Boston)
(c)
從pairs(Boston)的結(jié)果來看,感覺crim和age, dis, rad, tax, ptratio有較大的相關(guān)性
plot(Boston$age, Boston$crim)
plot(Boston$dis, Boston$crim)
plot(Boston$rad, Boston$crim)
plot(Boston$tax, Boston$crim)
plot(Boston$ptratio, Boston$crim)
(d)
par(mfrow=c(1,3))
hist(Boston$crim[Boston$crim>1], breaks=25)
hist(Boston$tax, breaks=25)
hist(Boston$ptratio, breaks=25)
(e)
dim(subset(Boston, chas == 1))
(f)
median(Boston$ptratio)
(g)
t(subset(Boston, medv == min(Boston$medv)))
summary(Boston)
(h)
dim(subset(Boston, rm > 7))
dim(subset(Boston, rm > 8))
summary(subset(Boston, rm > 8))
summary(Boston)
?
轉(zhuǎn)載于:https://www.cnblogs.com/-Sai-/p/5202236.html
總結(jié)
以上是生活随笔為你收集整理的统计学习导论:基于R应用——第二章习题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Mycat探索之旅(3)----Myca
- 下一篇: 15、Cocos2dx 3.0游戏开发找