日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

分辨真假数据科学家的20个问题及回答

發(fā)布時(shí)間:2025/3/20 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 分辨真假数据科学家的20个问题及回答 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.



【導(dǎo)語(yǔ)】本文分為兩個(gè)部分,第一部分是quora上很火的一篇問(wèn)答--【20個(gè)分辨真假數(shù)據(jù)科學(xué)家的問(wèn)題】中贊賞數(shù)最高的回答,第二部分則是KDnuggets閱讀量非常高的一篇文章【KDnuggets編輯們針對(duì)這20個(gè)問(wèn)題給出的回答】。前者由大數(shù)據(jù)文摘團(tuán)隊(duì)選稿翻譯校對(duì)后,呈現(xiàn)在各位讀者面前。后者授權(quán)轉(zhuǎn)載自計(jì)算廣告(Comp_Ad)譯者白雪、龍星鏢局,原載于KDnuggets。本次將分散于不同地址的相關(guān)資源整合推送,希望更有利于有興趣讀者的學(xué)習(xí),別忘了【評(píng)論區(qū)】給我們留言你的體會(huì)、收獲、以及建議喔!


◆?

分辨真假數(shù)據(jù)科學(xué)家的20個(gè)問(wèn)題


在讀答案之前,先來(lái)看看這20個(gè)問(wèn)題,并試著自己作答。回答可能包含有數(shù)學(xué)公式或少量代碼(R, Python, SQL等),而不只是泛泛而談的模糊內(nèi)容。


或許你可以試著把“我不知道,但我可以從閱讀以下內(nèi)容開(kāi)始……”作為你答案的一部分,因?yàn)檫@也是在測(cè)試候選人的誠(chéng)實(shí)與正直。一家組織最不想要的人就是那些夸張自己的能力或純粹胡編亂造的虛假人才。


(我留意到回復(fù)中關(guān)于這一點(diǎn)的討論很火熱):

這些問(wèn)題都不是最終的或是具備代表性的問(wèn)題,只是基于我自己專業(yè)領(lǐng)域提出來(lái)的。這些是問(wèn)題的原型,使用時(shí)應(yīng)該在此基礎(chǔ)上進(jìn)行編輯和改進(jìn)。若針對(duì)你通常處理的數(shù)據(jù)類型,你需要在問(wèn)題中加上更多細(xì)節(jié)描述。


  • 解釋什么是正規(guī)化(regularization)以及它的用處。解釋特定方法的優(yōu)劣勢(shì),如嶺回歸(ridge regression)和LASSO算法?

  • 解釋什么是局部?jī)?yōu)化(local optimum)以及為什么它在特定情況,如K均值聚類,是很重要的。具體有哪些方法能確定你是不是真的遇到了局部?jī)?yōu)化問(wèn)題?用什么方法可以避免局部最優(yōu)解?

  • 假設(shè)你需要使用多次回歸來(lái)為一個(gè)定量分析結(jié)果中的變量建立預(yù)測(cè)模型,請(qǐng)解釋你將如何來(lái)驗(yàn)證該模型。

  • 解釋什么是準(zhǔn)確率(precision)和召回率(recall),它們和ROC曲線有什么關(guān)聯(lián)?

  • 解釋什么是長(zhǎng)尾分布并舉出三個(gè)相關(guān)案例。為什么它們?cè)诜诸惡皖A(yù)測(cè)問(wèn)題中很重要?

  • 什么是隱語(yǔ)義分析(latent semantic indexing)?其主要是用來(lái)做什么的?這種方式的局限性是什么?

  • 中心極限理論是什么?其重要性是什么?在何種情況下會(huì)失效?

  • 統(tǒng)計(jì)功效(statistical power)是什么?

  • 解釋什么是重采樣法(resampling methods)以及它的用處和局限性。

  • 解釋含softmax activation的人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks )、邏輯回歸及最大熵分類器的區(qū)別。

  • 解釋選擇性偏差(這里指特定數(shù)據(jù)庫(kù)而不是隨機(jī)選擇)及其重要性。解釋缺失數(shù)據(jù)處理等數(shù)據(jù)管理流程是如何讓這種偏差變得更嚴(yán)重的?

  • 舉例說(shuō)明實(shí)驗(yàn)設(shè)計(jì)是如何幫助解決行為問(wèn)題的。例如解釋實(shí)驗(yàn)設(shè)計(jì)如何幫助優(yōu)化網(wǎng)絡(luò)頁(yè)面。如何將實(shí)驗(yàn)數(shù)據(jù)和觀測(cè)數(shù)據(jù)作對(duì)比?

  • 解釋“長(zhǎng)格式數(shù)據(jù)”和“寬格式數(shù)據(jù)”的不同,為什么你選擇使用其中某一種?

  • 對(duì)缺失數(shù)據(jù)使用均數(shù)填補(bǔ)法(mean imputation)是可行的么?為什么?

  • 解釋Edward Tufte 的“chart junk”理論。

  • 什么是異常值?解釋你是如何在數(shù)據(jù)庫(kù)中尋找異常值以及找到后是如何處理的。

  • 什么是主成分分析(PCA)?闡述你會(huì)用PCA來(lái)解決何種問(wèn)題,以及這種方法的局限性。

  • 假如你擁有一家客戶呼叫服務(wù)中心的來(lái)電時(shí)長(zhǎng)數(shù)據(jù),你打算如何編碼并分析這些數(shù)據(jù)?描述一個(gè)這些電話時(shí)長(zhǎng)數(shù)據(jù)可能呈現(xiàn)的分布場(chǎng)景,你將如何驗(yàn)證(最好是能圖形化地展現(xiàn))這個(gè)分布場(chǎng)景的正確性?

  • 解釋什么是“誤報(bào)”(false positive)和“漏報(bào)”(false negative)。區(qū)分這兩者的重要性是什么?分別對(duì)以下場(chǎng)景舉例:(1)誤報(bào)比漏報(bào)更重要 (2)漏報(bào)比誤報(bào)更重要(3)兩者同樣重要。

  • 解釋管理數(shù)據(jù)集(administrative datasets)和實(shí)驗(yàn)中收集的數(shù)據(jù)集(datasets gathered from experimental studies)之間可能的差異。有哪些是管理數(shù)據(jù)可能碰到的問(wèn)題?實(shí)驗(yàn)是如何幫助減輕這些問(wèn)題的?但隨之又會(huì)帶來(lái)哪些其他問(wèn)題?


  • quora地址:https://www.quora.com/What-are-20-questions-to-detect-fake-data-scientists?

    原作者|Jay Verkuilen 翻譯|Lizyjieshu?

    校對(duì)|apple ?寒小陽(yáng)


    ◆?

    KDnuggets編輯們針對(duì)這20個(gè)問(wèn)題給出的回答


    由于回答人不同,這二十個(gè)答案和上一部分的內(nèi)容可能不會(huì)一一對(duì)應(yīng),但相信你還是可以得到想要成為數(shù)據(jù)科學(xué)家的知識(shí)。


    Q1:什么是正則化(regularization)?它有什么作用?

    【Matthew Mayo解答】


    答:正則化項(xiàng)是保證模型平滑性的一個(gè)調(diào)節(jié)參數(shù),它可以起到防止過(guò)擬合的作用。正則化的通常做法,是將已有的權(quán)重向量經(jīng)過(guò)L1(Lasso)或者L2(ridge)變換,當(dāng)然變換也可以是其他形式。最終的模型優(yōu)化目標(biāo),是加入了正則化項(xiàng)后的損失函數(shù)。Xavier Amatriain給了一個(gè)很好的例子,對(duì)L1和L2正則化進(jìn)行比較。

    ?

    Lp球:p值減小,對(duì)應(yīng)Lp空間也減小


    Q2你最崇拜的數(shù)據(jù)科學(xué)家和創(chuàng)業(yè)公司有哪些?

    【Gregory Piatetsky解答】


    答:這個(gè)問(wèn)題沒(méi)有標(biāo)準(zhǔn)答案,下面是我個(gè)人最崇拜的12位數(shù)據(jù)科學(xué)家,排名不分先后。



    12位知名的數(shù)據(jù)科學(xué)家


    • Geoff Hinton, Yann LeCun, 和Yoshua Bengio在神經(jīng)網(wǎng)絡(luò)方面堅(jiān)持不懈的努力開(kāi)啟了當(dāng)前深度學(xué)習(xí)(Deep Learning)的革命。

    • Demis Hassabis在DeepMind(AlphaGo發(fā)明者,Google子公司)的突出貢獻(xiàn),使機(jī)器在玩Atari游戲以及最近進(jìn)行的圍棋比賽中達(dá)到了人類或超人類的水平。

    • 來(lái)自DataKind的Jake Porway和U. Chicago/DSSG的Rayid Ghani,使數(shù)據(jù)科學(xué)可以在社會(huì)福利方面有所貢獻(xiàn)。

    • DJ Patil美國(guó)政府的第一位首席數(shù)據(jù)科學(xué)家,用數(shù)據(jù)科學(xué)服務(wù)于美國(guó)政府。

    • Kirk D. Borne以社交媒體上的影響力和領(lǐng)導(dǎo)力為大家所知。

    • Claudia Perlich在廣告生態(tài)方面有很出色的工作,他還是KDD 2014的主席。

    • Hilary Mason在Bitly的偉大貢獻(xiàn),激勵(lì)著其他人成為大數(shù)據(jù)的搖滾明星。

    • Usama Fayyad在KDD和Data Science展現(xiàn)出的領(lǐng)導(dǎo)力和規(guī)劃才能,幫助和激勵(lì)著我和其他千千萬(wàn)的數(shù)據(jù)科學(xué)工作者竭盡全力工作。

    • Hadley Wickham在基于R的數(shù)據(jù)科學(xué)和數(shù)據(jù)可視化方面的卓越工作,包括 dplyr, ggplot2, 和 Rstudio。


    在數(shù)據(jù)科學(xué)領(lǐng)域有很多出色的創(chuàng)業(yè)公司。為了避免利益沖突,我就不將它們都列出來(lái)了。


    Q3用多元回歸(multiple regression)生成了一個(gè)量化輸出的預(yù)測(cè)模型,如何驗(yàn)證其有效性?

    【Matthew Mayo.解答】


    答:驗(yàn)證多元回歸模型的方法有很多,我們推薦如下的一些方法:


    • 如果模型預(yù)測(cè)值遠(yuǎn)在響應(yīng)變量范圍之外,那么模型的預(yù)估準(zhǔn)確性顯然存在問(wèn)題。

    • 雖然預(yù)測(cè)值看起來(lái)合理,但是參數(shù)存在以下問(wèn)題,也可以判斷存在預(yù)估問(wèn)題或者多重共線性問(wèn)題:與期望值相反的跡象;值特別大或特別小;在給模型輸入新數(shù)據(jù)時(shí)發(fā)現(xiàn)不一致。

    • 通過(guò)向模型輸入新的數(shù)據(jù),來(lái)做預(yù)測(cè),然后用相關(guān)系數(shù)來(lái)評(píng)價(jià)模型的正確性。

    • 把數(shù)據(jù)分成兩份,一份用來(lái)訓(xùn)練模型參數(shù),另一份用來(lái)驗(yàn)證。

    • 如果數(shù)據(jù)集很小,就要使用 jackknife resampling技術(shù),并用R平方和MSE(mean squared error)來(lái)測(cè)量效度。


    Q4:什么是查準(zhǔn)率(precision)和查全率(recall)?與ROC曲線的關(guān)系?

    【Gregory Piatetsky解答】


    答:計(jì)算查準(zhǔn)率和查全率實(shí)際上很簡(jiǎn)單。比如,在10,000個(gè)實(shí)例中有100個(gè)正例,如果你預(yù)測(cè)的結(jié)果有200個(gè)正例,那么顯然召回這100個(gè)正例的概率自然會(huì)大一些。根據(jù)你的預(yù)測(cè)結(jié)果和實(shí)際的標(biāo)簽,將結(jié)果中正確或者錯(cuò)誤的次數(shù)分別加起來(lái),有如下四個(gè)統(tǒng)計(jì)量:

  • TN / True Negative:實(shí)例是負(fù)的,預(yù)測(cè)也是負(fù)的

  • TP / True Positive:實(shí)例是正的,預(yù)測(cè)也是正的

  • ?FN / False Negative:實(shí)例是正的,但是預(yù)測(cè)是負(fù)的

  • ?FP / False Positive:實(shí)例是負(fù)的,但是預(yù)測(cè)是正的



  • Predicted NegPredicted Pos
    Neg CasesTN: 9,760FP: 140
    Pos CasesFN: 40TP: 60


    現(xiàn)在可以回答如下三個(gè)問(wèn)題:


    1、 預(yù)測(cè)正確的百分比是?

    回答:精度(accuracy)是(9,760 + 60) / 10,000 = 98.2%


    2、 實(shí)際為正例的樣本你預(yù)測(cè)對(duì)了多少?

    回答:查全率(recall)是60 / 100 = 60%


    3、 預(yù)測(cè)為正例的樣本中實(shí)際為正例的百分比?

    回答:查準(zhǔn)率(precision)是60 / 200 = 30%



    查準(zhǔn)率和查全率


    ROC曲線體現(xiàn)了靈敏性(召回)[原文:sensitivity, (RECALL)]和特異性(不是精確度)[原文:specificity(Not PRECISION)]之間的關(guān)系。通常用于衡量二分類器的好壞。然而,當(dāng)處理正負(fù)樣本分布得極不均勻數(shù)據(jù)集,PR曲線展示信息更具代表性。


    Q5:如何證明對(duì)一個(gè)算法的改進(jìn)的確是有用的?

    【Anmol Rajpurohit解答】


    答:在對(duì)快速迭代(又叫“快速成名”)[原文:rapid innovation (aka “quick fame”)]的追逐中,違反科學(xué)方法論的原則常導(dǎo)致誤導(dǎo)性的創(chuàng)新,特別是一些很吸引人但沒(méi)經(jīng)過(guò)嚴(yán)格驗(yàn)證的觀點(diǎn)。考慮如下場(chǎng)景,你要改進(jìn)算法的效果,并且有好幾個(gè)改進(jìn)思路。心急的做法,是盡快列出這些思路并實(shí)施。當(dāng)需要支撐數(shù)據(jù)時(shí),只有很局限的結(jié)果可以共享,這些結(jié)果很容易受到已知或未知的選擇偏差、或者誤導(dǎo)性的全局最優(yōu)(原因是缺乏適當(dāng)變化的測(cè)試數(shù)據(jù))影響。


    數(shù)據(jù)科學(xué)家最忌諱的是將情感凌駕于邏輯推理之上。雖然證明算法改進(jìn)有效的方法要看實(shí)際案例,但仍有一些通用的指導(dǎo)原則:

    • 確定用于效果評(píng)測(cè)的測(cè)試數(shù)據(jù)沒(méi)有選擇偏差(selection bias)。

    • 確保測(cè)試數(shù)據(jù)有足夠的變化(variety),以便對(duì)真實(shí)數(shù)據(jù)有擴(kuò)展性(有助于避免過(guò)擬合)。

    • 確保遵循對(duì)照實(shí)驗(yàn)(controlled experiment)原則,比如當(dāng)對(duì)比效果時(shí),確保新舊算法的測(cè)試環(huán)境(硬件等)完全一致。

    • 確定試驗(yàn)(近似)結(jié)果可以重復(fù)。

    • 檢查結(jié)果反映了局部極大值/極小值(local maxima/minima)或是全局極大值/極小值(global maxima/minima)。


    遵循以上原則的通常做法是A/B測(cè)試,將兩個(gè)算法都放到相似的環(huán)境里運(yùn)行相當(dāng)長(zhǎng)一段時(shí)間,并且將實(shí)際輸入數(shù)據(jù)隨機(jī)的劃分到兩個(gè)算法上。這種方法在網(wǎng)絡(luò)分析(Web Analytics)中很常用。


    Q6:什么是根本原因分析(root cause analysis)?

    【Gregory Piatetsky解答】


    答:維基百科上的解釋是:Root cause analysis (RCA)是確定錯(cuò)誤或問(wèn)題根本原因的方法。當(dāng)把某個(gè)因素從問(wèn)題故障序列中去除,能夠避免最終不良事件的再次發(fā)生,該因素就會(huì)被認(rèn)定為根本原因;反之,誘因影響事件的結(jié)果,卻不是根本原因。

    根本原因分析最初是用來(lái)分析工業(yè)事故,現(xiàn)在已經(jīng)在醫(yī)療保健、項(xiàng)目管理和軟件測(cè)試等領(lǐng)域廣泛應(yīng)用。


    本質(zhì)上來(lái)說(shuō),通過(guò)反復(fù)問(wèn)“為什么”,就可以找到一個(gè)問(wèn)題的根本原因和原因之間的關(guān)系,直到找到問(wèn)題的根本。這個(gè)方法通常叫做“5 Whys”,當(dāng)然問(wèn)題的個(gè)數(shù)并不一定是5個(gè)。



    “為什么”分析法示例, 來(lái)自 The Art of Root Cause Analysis


    Q7:你熟悉以下概念嗎?

    價(jià)格優(yōu)化(price optimization)、

    價(jià)格彈性(price elasticity)、

    庫(kù)存管理(inventory management)、

    競(jìng)爭(zhēng)情報(bào)(competitive intelligence)。

    請(qǐng)舉例說(shuō)明。

    【Gregory Piatetsky解答】


    答:這些術(shù)語(yǔ)都來(lái)自經(jīng)濟(jì)學(xué)領(lǐng)域,在數(shù)據(jù)科學(xué)中并不常見(jiàn)。但是,了解這些術(shù)語(yǔ)很有意義。


    價(jià)格優(yōu)化,是用數(shù)學(xué)工具來(lái)確定消費(fèi)者對(duì)不同渠道獲得的產(chǎn)品或服務(wù)的不同價(jià)格的反應(yīng)。


    大數(shù)據(jù)和數(shù)據(jù)挖掘使個(gè)性化定價(jià)成為可能。現(xiàn)在,像亞馬遜這樣的公司可以基于用戶的歷史行為,將價(jià)格優(yōu)化更進(jìn)一步,實(shí)現(xiàn)不同用戶不同的價(jià)格。當(dāng)然,這樣做是否公平仍存在很大的爭(zhēng)論。


    價(jià)格彈性,分為需求價(jià)格彈性和供給價(jià)格彈性:

    需求價(jià)格彈性是對(duì)價(jià)格敏感度的一種度量,其計(jì)算公式如下:

    需求價(jià)格彈性 = 需求量變化的百分比 / 價(jià)格變化的百分比

    [原文:Price Elasticity of Demand = % Change in Quantity Demanded / % Change in Price]供給的價(jià)格彈性(Price elasticity of supply)指的是商品或服務(wù)的供給數(shù)量隨商品價(jià)格變動(dòng)而變動(dòng)的情況。


    庫(kù)存管理,是指對(duì)公司在生產(chǎn)過(guò)程中使用的各種物品的訂購(gòu)、儲(chǔ)存和使用的監(jiān)督和控制,以及待售成品數(shù)量的監(jiān)督和控制。


    競(jìng)爭(zhēng)情報(bào),維基百科上的定義如下

    Competitive intelligence: 定義、收集、分析、和發(fā)布有關(guān)產(chǎn)品、客戶、競(jìng)爭(zhēng)對(duì)手以及制定戰(zhàn)略決策所需的任何方面的情報(bào)。?

    像Google Trends, Alexa, Compete等工具都可以在網(wǎng)上獲得總體趨勢(shì),進(jìn)而分析競(jìng)爭(zhēng)對(duì)手的情況。


    Q8:什么是統(tǒng)計(jì)功效(statistical power)?

    【Gregory Piatetsky解答】


    答:維基百科這樣定義二元假設(shè)檢驗(yàn)(binary hypothesis test)的統(tǒng)計(jì)功效或者靈敏度(sensitivity):當(dāng)備選假設(shè)(alternative hypthesis)H1為真時(shí),正確地拒絕零假設(shè)(null hypothesis)H0的概率。另一種說(shuō)法,統(tǒng)計(jì)功效是當(dāng)效應(yīng)(effect)存在時(shí),能夠檢測(cè)到效應(yīng)的可能性。功效越高,出現(xiàn)II類錯(cuò)誤(Type II error)可能性越低(即檢測(cè)結(jié)論沒(méi)有效應(yīng),但事實(shí)上是有的。譯者注:即假陰性)。


    Q9:什么是重采樣(resampling)?它有什么用?有什么局限?

    【Gregory Piatetsky解答】


    答:經(jīng)典的統(tǒng)計(jì)參數(shù)檢測(cè)把實(shí)測(cè)統(tǒng)計(jì)量當(dāng)作理論抽樣分布。而重采樣是數(shù)據(jù)驅(qū)動(dòng)的,而不是理論驅(qū)動(dòng)的方法,它是在同一個(gè)樣本中反復(fù)采樣的技術(shù)。


    以下各種方法都可以被稱為重采樣:

    • 使用可用數(shù)據(jù)集的子集(jackknifing)或者隨機(jī)可重復(fù)采樣出一批的數(shù)據(jù)點(diǎn)(bootstrapping)來(lái)估計(jì)樣本統(tǒng)計(jì)量(中位數(shù)、方差、百分位數(shù))[原文:medians, variances, percentiles]的準(zhǔn)確率。

    • 在進(jìn)行顯著性檢驗(yàn)時(shí)交換數(shù)據(jù)點(diǎn)的標(biāo)記(置換檢驗(yàn),也被稱為精確檢驗(yàn),隨機(jī)化檢驗(yàn),或重隨機(jī)化檢驗(yàn))[原文:permutation tests, also called exact tests, randomization tests, or re-randomization tests]

    • 通過(guò)隨機(jī)子集驗(yàn)證模型(bootstrapping,交叉驗(yàn)證)[原文:bootstrapping, cross validation]


    Q10:假陽(yáng)性(false positive)多還是假陰性(false negative)多比較好?請(qǐng)說(shuō)明原因。

    【Devendra Desale解答】


    答:這個(gè)問(wèn)題取決于要解決的問(wèn)題和領(lǐng)域。


    比如,在醫(yī)學(xué)檢驗(yàn)方面,假陰性會(huì)給病人和醫(yī)生提供錯(cuò)誤的檢查信息,但病人有病時(shí)卻檢測(cè)為沒(méi)有病,這會(huì)導(dǎo)致病人得不到適合的治療。所以,這個(gè)時(shí)候我們希望多一些假陽(yáng)性。


    但是,在垃圾郵件過(guò)濾時(shí),假陽(yáng)性意味著會(huì)將正常郵件當(dāng)成了垃圾郵件,從而干擾郵件的傳送。反垃圾郵件除了要能夠夠攔截或過(guò)濾大部分的垃圾郵件,但減少假陽(yáng)性帶來(lái)的誤傷也非常重要。所以,這時(shí)我們希望多一些假陰性。


    Q11:什么是選擇偏差(selection bias)?它的重要性如何?怎樣才能避免?

    【Matthew Mayo解答】


    答:一般來(lái)說(shuō),選擇偏差指的是由于非完全隨機(jī)的樣本引發(fā)錯(cuò)誤的一種情況。舉例來(lái)說(shuō),如果有100個(gè)測(cè)試樣本,分別由60/20/15/5分成四類組成,但實(shí)際的訓(xùn)練樣本中每類實(shí)例數(shù)量又是接近的,那么模型有可能給出錯(cuò)誤的假設(shè)—每類占比是決定性的預(yù)測(cè)因素。避免非隨機(jī)采樣是解決選擇偏差的最好辦法,但當(dāng)它在實(shí)踐中有困難時(shí),使用類似重采樣(resampling)、boosting和加權(quán)(weighting)這樣的策略也有助于解決這個(gè)問(wèn)題。


    Q12:舉例說(shuō)明怎樣設(shè)計(jì)實(shí)驗(yàn)來(lái)回答有關(guān)用戶行為(user behavior)的問(wèn)題

    【Bhavya Geethika解答】


    答:步驟1,制定要研究的問(wèn)題:頁(yè)面加載時(shí)間對(duì)用戶滿意度評(píng)級(jí)的影響是什么?


    步驟2,識(shí)別變量:我們要識(shí)別出原因和結(jié)果,自變量是頁(yè)面加載時(shí)間,因變量是用戶滿意度評(píng)級(jí)。


    步驟3,構(gòu)造假設(shè):對(duì)一個(gè)網(wǎng)頁(yè)來(lái)說(shuō),較低的頁(yè)面加載時(shí)間會(huì)對(duì)用戶滿意度有更多影響。這里我們要分析的因素就是頁(yè)面加載時(shí)間。


    ??你的實(shí)驗(yàn)設(shè)計(jì)有一個(gè)缺陷


    步驟4,確定實(shí)驗(yàn)的設(shè)計(jì):考慮實(shí)驗(yàn)的復(fù)雜性,即一次改變一個(gè)因素或者在同一時(shí)間改變多個(gè)因素,這樣我們用的是因子設(shè)計(jì)(factorial design, 又稱2 ^?設(shè)計(jì))。設(shè)計(jì)的選擇要基于目標(biāo)的類型(比較、篩選、響應(yīng)面)[原文:Comparative, Screening, Response surface]和因素(factors)的個(gè)數(shù)。


    我們還要確定采用何種實(shí)驗(yàn)形式,可以是參與者組內(nèi)、參與者組間或者混合方式。例如:有兩個(gè)版本的網(wǎng)頁(yè),一個(gè)在左邊有購(gòu)買按鈕(點(diǎn)擊購(gòu)買)另一個(gè)網(wǎng)頁(yè)這個(gè)按鈕在右邊。


    參與者組內(nèi)設(shè)計(jì)(Within-participants design) – 用戶組的用戶都可以看到兩個(gè)版本的網(wǎng)頁(yè)。

    參與者組間設(shè)計(jì)(Between-participants design) – 一個(gè)用戶組看到A版本,另一組的用戶看到B版本的。


    步驟5,制定實(shí)驗(yàn)任務(wù)和程序:

    實(shí)驗(yàn)中涉及的步驟的詳細(xì)描述,用來(lái)衡量用戶行為的工具, 目標(biāo)和成功度量這些都要定義。收集有關(guān)用戶參與的定性數(shù)據(jù),以便進(jìn)行統(tǒng)計(jì)分析。


    步驟6,確定操作和測(cè)量:操作(manipulation): 控制一個(gè)層級(jí)的因素,處理另一個(gè)。我們還要定義行為的衡量標(biāo)準(zhǔn)。

    • 延遲(Latency)-從提示到行為發(fā)生的時(shí)間(從展示出商品到用戶點(diǎn)擊購(gòu)買按鈕用了多長(zhǎng)時(shí)間)。

    • 頻次(Frequency)-一個(gè)行為發(fā)生的次數(shù)(在某個(gè)時(shí)間內(nèi)點(diǎn)擊特定頁(yè)面的次數(shù))。

    • 持續(xù)時(shí)長(zhǎng)(Duration)-特定行為持續(xù)時(shí)間(添加所有商品所用的時(shí)間)。

    • 強(qiáng)度(Intensity)-行為發(fā)生的強(qiáng)烈程度(用戶多快購(gòu)買一個(gè)商品)。


    步驟7,分析結(jié)果:

    識(shí)別用戶行為數(shù)據(jù),根據(jù)觀測(cè)到的結(jié)果,支持或反對(duì)該假設(shè)。例如:不同頁(yè)面加載時(shí)間下用戶滿意度評(píng)級(jí)的分布是怎樣的。?


    Q13:“高/寬”數(shù)據(jù)(tall/wide data)的差別是什么?

    【 Gregory Piatetsky解答】


    答:在大多數(shù)數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)的應(yīng)用中,記錄(行)比特征(列)多很多-這種數(shù)據(jù)有時(shí)被稱做“高”數(shù)據(jù)。?


    在像基因組學(xué)或者生物信息學(xué)的一些應(yīng)用中,你可能只有很少的記錄(病人),例如100,但又可能會(huì)對(duì)每個(gè)病人做20,000個(gè)觀察。這時(shí),通常用在“高”數(shù)據(jù)上的標(biāo)準(zhǔn)方法會(huì)導(dǎo)致過(guò)度擬合數(shù)據(jù),所以需要引入特殊的方法。



    ?針對(duì)高數(shù)據(jù)和寬數(shù)據(jù)的不同方法

    問(wèn)題不僅僅是變形(reshape)數(shù)據(jù)(這里有R包 useful R packages),而是通過(guò)減少特征數(shù)來(lái)尋找最相關(guān)的特征,以避免假陽(yáng)性(false positives)。特征約減(feature reduction)的方法像Lasso在"Statistical Learning with Sparsity: The Lasso and Generalizations"一書中有介紹, 請(qǐng)?jiān)诠娞?hào)后臺(tái)發(fā)送信息“data2”獲取。


    Q14:怎樣確定一篇文章里(報(bào)紙或其他媒體上)的統(tǒng)計(jì)數(shù)據(jù)是錯(cuò)的或者只是為了支持作者的觀點(diǎn),而不是關(guān)于某主題正確全面的真實(shí)信息?


    答:Zack Lipton提出了一個(gè)簡(jiǎn)單的原則:如果這些統(tǒng)計(jì)數(shù)據(jù)發(fā)表在報(bào)紙上,那么它就是錯(cuò)的。這里有一個(gè)來(lái)自Anmol Rajpurohit的更嚴(yán)謹(jǐn)?shù)慕獯稹?/span>


    每個(gè)媒體都有目標(biāo)受眾,對(duì)受眾的選擇在很大程度上決定了發(fā)布哪些文章、文章怎樣措辭、重點(diǎn)突出文章的哪部分、怎樣去講這個(gè)事件等。


    要判定發(fā)表在一篇文章上統(tǒng)計(jì)數(shù)據(jù)的有效性,第一步先要看發(fā)表它的機(jī)構(gòu)和它的目標(biāo)受眾。你會(huì)發(fā)現(xiàn)即使是同樣一個(gè)包含統(tǒng)計(jì)數(shù)據(jù)的新聞事件,福克斯新聞(Fox news)、華爾街新聞(wsj)和ACM/IEEE發(fā)布的會(huì)不那么一樣。因此,數(shù)據(jù)科學(xué)家能聰明地知道從哪里獲取資訊(以及要相信它幾分)。



    ?出現(xiàn)在“福克斯新聞”上一個(gè)十分具有誤導(dǎo)性的柱狀圖



    如何客觀地呈現(xiàn)相同的數(shù)據(jù)


    作者通常通過(guò)下面的方法試圖隱藏他們研究的不足:巧妙的敘事技巧和忽略重要的細(xì)節(jié)直接跳到誘人的錯(cuò)誤結(jié)論。因此,可以使用“拇指規(guī)則”(thumb’s rule)識(shí)別文章是否包含誤導(dǎo)人的統(tǒng)計(jì)數(shù)據(jù),檢查文章是否包含了研究方法上的細(xì)節(jié)以及研究方法是否存在有感知限制的選擇。注意查找像“樣本容量(sample size)”,“誤差范圍(margin of error)”等詞。盡管對(duì)“樣本容量”,“誤差范圍”多少合適沒(méi)有完美的答案,這些屬性在閱讀最終結(jié)論時(shí)要牢記于心。


    另一個(gè)常見(jiàn)的錯(cuò)誤報(bào)道案例是這樣的,缺乏數(shù)據(jù)素養(yǎng)(data-education)的記者從已發(fā)表的研究報(bào)告的一兩段中得到一個(gè)見(jiàn)解,并且為了得到他們的觀點(diǎn)而忽略報(bào)告的其他部分。因此,以下一些方法能夠避免你被這樣的文章愚弄:首先,一篇可靠的文章不會(huì)含有任何無(wú)事實(shí)根據(jù)的觀點(diǎn)。所有觀點(diǎn)都必須能夠?qū)?yīng)研究結(jié)果的支持。否則,則必須明確將其區(qū)分為“意見(jiàn)”,而不是一個(gè)觀點(diǎn)。其次,即便一篇文章引用了著名的研究論文,也并不代表它正確地運(yùn)用了論文中的觀點(diǎn)。這能通過(guò)全面閱讀這些研究論文來(lái)判斷其與手頭文章的相關(guān)性。最后,雖然結(jié)論看起來(lái)是一篇文章最有趣的部分,但直接跳過(guò)研究方法(research methodology)的細(xì)節(jié)(例如明顯錯(cuò)誤,偏差等)[原文:spot errors, bias, etc.]往往是災(zāi)難性的。


    理想情況下,我希望所有這些文章發(fā)表研究數(shù)據(jù)的時(shí)候也同時(shí)公布研究方法。這樣,文章才能做到真正可信,因?yàn)槊總€(gè)人都可以分析這些數(shù)據(jù),應(yīng)用研究方法得出結(jié)論。


    Q15:解釋Edward Tufte's的“圖表垃圾”(chart junk)的概念

    【Gregory Piatetsky解答】?


    圖表垃圾指的是圖表或圖片中所有可視元素對(duì)表達(dá)信息是不必要的,或者干擾觀察者獲取信息。圖表垃圾這個(gè)名詞是由Edward Tufte在他1983年的書《定量信息的視覺(jué)展示》里提出的。



    “一個(gè)無(wú)意的內(nèi)克爾錯(cuò)覺(jué),像后面兩個(gè)平面翻轉(zhuǎn)到了前面來(lái)。有的角錐體遮住了其他的;一個(gè)變量(角錐體堆疊的深度)沒(méi)有注明標(biāo)識(shí)或比例”。


    ?

    上圖一個(gè)來(lái)自exceluser的更現(xiàn)代的例子,由于工人和吊車的干擾,圖中的柱狀圖很難理解


    這些修飾的存在迫使讀者花更大力氣而非必要地來(lái)發(fā)現(xiàn)數(shù)據(jù)的意義。


    Q16:怎樣篩查異常點(diǎn)(outliers)以及發(fā)現(xiàn)異常點(diǎn)后該如何處理?

    【Bhavya Geethika解答】


    答:一些篩查異常點(diǎn)的方法有Z分?jǐn)?shù)(z-score)、改進(jìn)的Z分?jǐn)?shù)(modified z-score)、箱線圖(box plots)、格拉布斯測(cè)試(Grubb’s test)、Tietjen-Moore測(cè)試指數(shù)平滑(Tietjen-Moore test exponential smoothing)、Kimber測(cè)試指數(shù)分布(Kimber test for exponential distribution)和移動(dòng)窗口濾波算法(moving window filter algorithm)。下面是兩種穩(wěn)健(robust)方法的細(xì)節(jié):


    四分位距法(Inter Quartile Range)

    異常值是給定數(shù)據(jù)集中一個(gè)小于第一四分位數(shù)(Q1)或者大于第三四分位數(shù)(Q3)1.5倍四分位距以上的數(shù)據(jù)點(diǎn)。

    • High = (Q3) + 1.5 IQR

    • Low = (Q1) - 1.5 IQR


    Tukey法(Tukey Methond)

    它使用四分位距來(lái)過(guò)濾太大或太小的數(shù)。它實(shí)際上與上面的方法一樣,除了它使用了“圍欄(fences)”的概念。有兩個(gè)一高一低的圍欄:

    • Low outliers = Q1 - 1.5(Q3 - Q1) = Q1 - 1.5(IQR)

    • High outliers = Q3 + 1.5(Q3 - Q1) = Q3 + 1.5(IQR)

    在圍欄之外的都是異常點(diǎn)。


    當(dāng)發(fā)現(xiàn)了異常值,不能在沒(méi)有進(jìn)行定性評(píng)估下就將它們移除,因?yàn)檫@樣做是數(shù)據(jù)不再純凈。重要的是要理解分析問(wèn)題的上下文或者說(shuō)重要的是“為什么的問(wèn)題-為什么異常值不同于其他數(shù)據(jù)點(diǎn)?”


    這個(gè)原因很關(guān)鍵。如果是異常點(diǎn)導(dǎo)致了錯(cuò)誤的發(fā)生,就可以把它扔掉。但如果異常點(diǎn)表示了一種新的趨勢(shì)、模式或者揭示了數(shù)據(jù)中有價(jià)值的結(jié)論,那么它就應(yīng)該被保留。


    Q17:怎樣運(yùn)用極值理論(extreme value theory)、

    蒙特卡洛模擬(Monte Carlo simulations)或其他數(shù)理統(tǒng)計(jì)方法來(lái)正確的估計(jì)一個(gè)小概率事件(rare event)的發(fā)生幾率。

    【Matthew Mayo解答】


    答:極值理論關(guān)注的是小概率事件或極值,這點(diǎn)和經(jīng)典統(tǒng)計(jì)方法不太一樣,后者更關(guān)注平均。極值理論認(rèn)為有3種分布可以建模從一些分布中隨機(jī)觀察到的極值點(diǎn):Gumble, Frechet, 和 Weibull分布,也被叫做極值分布(Extreme Value Distributions, EVD)I型、II型和III型。


    極值理論認(rèn)為,如果從一個(gè)給定分布中產(chǎn)生N個(gè)數(shù)據(jù)集,然后創(chuàng)建一個(gè)只包含了這N個(gè)數(shù)據(jù)集的最大值的新數(shù)據(jù)集,那么這個(gè)新數(shù)據(jù)集只能被一種EVD分布精確描述:Gumble, Frechet, 或者 Weibull分布。廣義極值分布(GEV)則是一個(gè)可以組合這3種極值理論分布還有極值分布模型的模型。


    首先要理解用來(lái)建模數(shù)據(jù)的模型,然后才能使用模型來(lái)建模數(shù)據(jù),最后才是評(píng)估。一旦找到最合適的模型,就能對(duì)模型進(jìn)行分析,包括計(jì)算可能性。


    Q18:什么是推薦引擎(recommendation engine)?

    它是怎么工作的?

    【Gregory Piatetsky解答】


    我們現(xiàn)在都對(duì)推薦很熟悉,比如netflix的“你可能喜歡的其他電影”,亞馬遜的“購(gòu)買了X的用戶還買了Y”。這些系統(tǒng)就叫做推薦引擎,或者更通俗地叫做推薦系統(tǒng)(recommender systems)。



    ?

    兩種典型的進(jìn)行推薦的方法是:協(xié)同過(guò)濾(Collaborative filtering)和基于內(nèi)容的推薦(Content-based filtering)。


    協(xié)同過(guò)濾基于用戶過(guò)去的行為(如買過(guò)的商品、看過(guò)的電影、評(píng)過(guò)的電影等)和用戶以及其他用戶的決定建模,然后模型被用于預(yù)測(cè)用戶可能會(huì)感興趣的物品(或者給物品的評(píng)分)。


    基于內(nèi)容的推薦方法基于一個(gè)物品特征來(lái)推薦更多具有類似特性的物品(items)。這些方法經(jīng)常包含在混合推薦系統(tǒng)(Hybrid Recommender Systems)中。


    這里有兩種方法應(yīng)用到兩個(gè)流行音樂(lè)推薦系統(tǒng)中的比較:Last.fm和Pandora Radio(例子來(lái)自維基百科的推薦系統(tǒng)條目Recommender System)

    • Last.fm建立了一個(gè)歌曲推薦站。他們觀察一個(gè)用戶經(jīng)常聽(tīng)的樂(lè)隊(duì)或單曲,并與其他用戶的聽(tīng)歌行為進(jìn)行比較,然后Last.fm會(huì)給一個(gè)用戶播放那些不在其曲庫(kù)里,但和其興趣相似的其他用戶常聽(tīng)的歌曲。由于這種方法利用了用戶行為,它是一個(gè)協(xié)同過(guò)濾技術(shù)的例子。

    • Pandora是一個(gè)可以播放具有相似屬性音樂(lè)的站,它主要基于一首歌或藝術(shù)家的屬性(一個(gè)由Music Genome Project提供的400個(gè)屬性的子集)來(lái)推薦。用戶的反饋用來(lái)修正曲庫(kù)的結(jié)果,當(dāng)用戶不喜歡一首歌曲時(shí)就減弱對(duì)應(yīng)的屬性(attributes),而當(dāng)用戶喜歡一首歌曲時(shí)就增強(qiáng)對(duì)應(yīng)的屬性。這是一個(gè)基于內(nèi)容過(guò)濾的例子。


    Q19:說(shuō)明假陽(yáng)性(false positive)和假陰性(false negative)分別是什么?為什么區(qū)分它們的差異性很重要?

    【 Gregory Piatetsky解答】


    答:在二分類(或者醫(yī)學(xué)檢驗(yàn))中,假陽(yáng)性是指當(dāng)一個(gè)算法或測(cè)試顯示出現(xiàn)某種狀況,但實(shí)際上并未出現(xiàn)。假陰性是指當(dāng)一個(gè)算法或測(cè)試顯示未出現(xiàn)某種狀,但實(shí)際上卻出現(xiàn)了。


    在統(tǒng)計(jì)假設(shè)檢驗(yàn)中,假陽(yáng)性也叫做一類錯(cuò)誤,假陰性也叫做二類錯(cuò)誤。


    很明顯區(qū)分和區(qū)別對(duì)待假陽(yáng)性和假陰性非常重要,因?yàn)檫@兩類錯(cuò)誤的代價(jià)可能會(huì)有巨大差異。


    舉例來(lái)講,如果對(duì)一項(xiàng)重大疾病的檢測(cè)是假陽(yáng)性(檢測(cè)結(jié)果是有病,但其實(shí)病人是健康的),那么就需額外的檢測(cè)來(lái)做出正確的診斷。另一方面,如果一項(xiàng)檢測(cè)是假陰性(檢測(cè)結(jié)果是健康的,但其實(shí)病人有疾病),那么必要的治療將會(huì)終止,可能會(huì)導(dǎo)致病人病情惡化而死亡。


    Q20:你使用什么工具來(lái)做可視化(visualization)?你覺(jué)得Tableau怎么樣?R呢?SAS呢?怎樣在一張圖或視頻里有效地展示5維數(shù)據(jù)?

    【Gregory Piatetsky解答】


    答:數(shù)據(jù)可視化有很多很好的工具,如R, Python, Tableau 和 Excel等都是數(shù)據(jù)科學(xué)家經(jīng)常使用的。


    有很多方法可以在一個(gè)圖表里展示多于2維的信息。第三維度可以用能旋轉(zhuǎn)的三維散點(diǎn)來(lái)展示。還可以應(yīng)用顏色、陰影、形狀、尺寸。動(dòng)畫可以有效地展示時(shí)間維度(隨著時(shí)間改變)。下面是個(gè)好例子。


    5維Iris數(shù)據(jù)集的散點(diǎn)圖 分別對(duì)應(yīng) 尺寸: 花萼長(zhǎng)度; 顏色: 花萼寬度; 形狀: 類別標(biāo)記; 橫軸: 花瓣長(zhǎng)度; 縱軸: 花瓣寬度


    對(duì)多于5維的,一種方法是平行坐標(biāo)法 (Parallel Coordinates),由Alfred Inselberg首創(chuàng)。?

    ?Iris數(shù)據(jù)集的平行坐標(biāo)展示?


    當(dāng)然,當(dāng)有很多維度的時(shí)候,最好還是先減少維度或特征的數(shù)量。

    原文發(fā)布時(shí)間為:2016-11-14

    本文來(lái)自云棲社區(qū)合作伙伴“大數(shù)據(jù)文摘”,了解相關(guān)信息可以關(guān)注“BigDataDigest”微信公眾號(hào)

    總結(jié)

    以上是生活随笔為你收集整理的分辨真假数据科学家的20个问题及回答的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。