R语言简介与案例
R語言簡介與案例
(本文為一次向計算機零基礎人群演講時,應要求所寫演示內容)
一.?R語言是什么?
?
如果說統計學是人類歷史上的一次偉大跨越,那么R語言就是就是幫助統計學家走的更遠的一雙翅膀.R語言是什么?R語言就是一門幫助統計學家在計算機上進行數學計算的語言,有了它統計學家就可以與計算機更好地互動,并幫助統計學家更快更好的完成本專業的一些事情.
不過隨著時代的發展,R語言作為一門計算機語言,也已經不僅僅能夠完成它的最初使命.同時現在的它還能夠完成許多的其他事情比如網絡爬蟲等等
?
二.?如何使用R語言?
R語言的使用十分簡單.對于一般常用公式,R語言都已經做好了封裝,將其封裝在了內部.也就是說R語言已經將很多常用的數學公式寫好了,對于數學中的各種函數與方法,在R中我們也給他們的計算機實現起了同樣的名字”函數”.
?
比如假如我們在R中使用卡方檢驗來檢驗兩個變量的相關性,那么只需要簡單的調用”chisq.test()”函數就可以了.
?
舉個例子,我們使用R中自帶的卡方檢驗函數對R語言中自帶的數據
上述結果表明數據集有很多因素變量,可以被認為是分類變量。?對于我們的模型,我們將考慮變量“AirBags”和“Type”。?在這里,我們的目標是找出所售的汽車類型和安全氣囊類型之間的任何顯著的相關性。?如果觀察到相關性,我們可以估計哪種類型的汽車可以更好地賣什么類型的氣囊。
?
文中的前三行代碼是從R語言中自帶的數據庫挑選出了汽車類型與安全氣囊這兩個數據,然后將其展示給了我們,而最后一行代碼則使用”chisq.test()”函數對數據進行了卡方檢驗
?
從這里我們可以看出,對于使用R語言中的函數可以說是相當的簡單了.
?
三.?在R語言中實現皮爾遜系數
?
皮爾遜系數是檢驗變量之間線性相關性的一種常用方法,雖然R語言中已經有了相關實現,不過這里我們將要自己實現一下.
?
首先我們來確認皮爾遜系數的一種實現方式,下面的這個公式十分簡單,只要能夠使用R語言中的求均值,求和,開平方等基本操作就可以了.
?
?
?
通過上面的這些操作,我們已經在R語言中是實現了皮爾遜系數的公式.如果有需要的話我們也可以將這個公式封裝為我們自己的函數.只需要使用一條簡單的語句聲明即可.
?
現在我們已經擁有一個我們自己的函數了.
?
四.?使用R中的包
包是什么?
剛剛我們封裝了我們自己的一個函數,而假如我們想要將我們自己的函數提供給別人使用,我們就需要將他們變成另外一種形式,也是就是包.
?
通過將我們自己的一些程序打成包發出去,就可以讓別人使用我們的包.同樣的我們也可以通過下載包的形式使用別人已經做好的包.這樣我們都可以減少很多不必要的工作.也正因如此假如我們需要使用某一個R語言自身沒有帶的數學公式的時候,我們就可以去下載一些別人制作的包.這樣一來,我們就不需要自己做一些重復造輪子的事情了.
?
而同樣的在R中下載和使用包也是十分簡單的.只需要”install.packages(“包名”)”即可.比如假如我們想要在R語言中使用隨機森林算法.那么只需要
然后執行即可.
?
下面我們就在R語言中進一步利用randomForest?進行進一步實戰.
?
(1)?隨機森林randomForest?的語言
?
語法為--->??randomForest(formula,?data)
以下是所使用的參數的描述?-?
?
其中:formula是描述預測變量和響應變量的公式。data是所使用的數據集的名稱
(2)?選擇數據
我們將使用名為readingSkills的R語言內置數據集來創建決策樹。?它描述了某人的readingSkills的分數,如果我們知道變量“age”,“shoesize”,“score”,以及該人是否是母語。
以下是示例數據。
(3)?然后我們開始使用R語言中的隨機森林算法對數據建模預測
?
(4)?結論:從上面顯示的隨機森林,我們可以得出結論,鞋碼和成績是決定如果某人是母語者或不是母語的重要因素。?此外,該模型只有1%的誤差,這意味著我們可以預測精度為99%。
?
五.安裝問題
(1)win下請到官網下載exe安裝文件,直接安裝即可,R語言鏡像目錄,Rstudio
(2)Ubuntu下R與Rstudio的安裝與配置
?
?
總結
- 上一篇: 深入浅出统计学 第二三章 量度
- 下一篇: 深入浅出统计学 第四五章 离散概率的计算