随机交换检验数据挖掘结果-assessing data mining result via swap randomization
轉載自己的博客:?
http://blog.csdn.net/lgnlgn/article/details/5936945
? ? ?數據挖掘中一個重要的研究議題是確定發現的模式或模型是否顯著。雖然傳統統計方法已經早已用以進行顯著性檢驗,但是在數據挖掘領域這一方法卻沒有得到足夠的重視。在本文中提出采用隨機交換來檢驗在0-1數據集上的數據挖掘結果。隨機交換的基本思想是:給定一個數據集D,隨機生成一批行間距(row margin)以及列間距(column margin)相同的數據集。在這些隨機數據集上進行挖掘,看挖掘結果是否顯著不同于在原數據集上的挖掘結果。如果不是,我們可以假設挖掘結果只是由于行間距及列間距的原因,而不是數據集中的有趣結構。
?
隨機交換的思想簡單的說就是看挖掘結果是不是由特定因素造成的,套個現實例子:一個女孩子對你很好,你可能會覺得很幸福,但其實你不知道是她對所有人都這樣,還是對你才這樣。如果是對所有人都會好的,那她對你好其實是例行公事,沒有啥價值。 不要輕易就對一件事做一些定論,要多考察一下。
?
論文從各方面看都非常值得仔細閱讀一遍。非常推崇!
轉載于:https://www.cnblogs.com/lgnlgn/archive/2012/03/24/2416154.html
總結
以上是生活随笔為你收集整理的随机交换检验数据挖掘结果-assessing data mining result via swap randomization的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL数据库添加一个字段
- 下一篇: public protect priva