Task2-18跬步
1線性回歸
利用大量的樣本D=(xi,yi)Ni=1 D=(xi?,yi?)i=1N?,通過有監督的學習,學習到由x到y的映射f
f,利用該映射關系對未知的數據進行預估,因為y為連續值,所以是回歸問題。
2正則化:模型選擇的典型方法是正則化(regularization)。正則化是結構風險最小化策略的實現,是在經驗風險上加一個正則化項(regularizer)或罰項(penalty term)。正則化項一般是模型復雜度的單調遞增函數,模型越復雜,正則化值就越大。比如正則化項可以是模型參數向量的范數.
3.線性回歸于邏輯回歸的區別:
線性回歸中,獨立變量的系數解釋十分明了,就是保持其他變量不變時,改變單個變量因變量的改變量。、 邏輯回歸中,自變量系數的解釋就要視情況而定了,要看選用的概率分布是什么,如二項式分布,泊松分布等4.LR的應用和優缺點
LR是解決工業規模問題最流行的算法。在工業應用上,如果需要分類的數據擁有很多有意義的特征,每個特征都對最后的分類結果有或多或少的影響,那么最簡單最有效的辦法就是將這些特征線性加權,一起參與到決策過程中。比如預測廣告的點擊率,從原始數據集中篩選出符合某種要求的有用的子數據集等等。優點:1)適合需要得到一個分類概率的場景。2)計算代價不高,容易理解實現。LR在時間和內存需求上相當高效。它可以應用于分布式數據,并且還有在線算法實現,用較少的資源處理大型數據。3)LR對于數據中小噪聲的魯棒性很好,并且不會受到輕微的多重共線性的特別影響。(嚴重的多重共線性則可以使用邏輯回歸結合L2正則化來解決,但是若要得到一個簡約模型,L2正則化并不是最好的選擇,因為它建立的模型涵蓋了全部的特征。)
缺點:1)容易欠擬合,分類精度不高。2)數據特征有缺失或者特征空間很大時表現效果并不好。
5.Sklearn參數
class sklearn.linear_model.``LogisticRegression(
penalty=’l2’,
dual=False,
tol=0.0001,
C=1.0,
fit_intercept=True,
intercept_scaling=1,
class_weight=None,
random_state=None,
solver=’warn’,
max_iter=100,
multi_class=’warn’,
verbose=0,
warm_start=False,
n_jobs=None,
總結
以上是生活随笔為你收集整理的Task2-18跬步的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CCNA培训课总结笔记(一)
- 下一篇: 关于CCNA的培训课程(2)-- 路由器