多标签学习
Multi-Label是一個比較新的研究方面,可能很多人沒有聽過。這里我簡單地翻譯一下Tsoumakas的介紹(http://mlkd.csd.auth.gr/multilabel.html)。
Introduction
Traditional single-label classification is concerned with learning from a set of examples that are associated with a single label l from a set of disjoint labels L, |L| > 1. In multi-label classification, the examples are associated with a set of labels Y in L. In the past, multi-label classification was mainly motivated by the tasks of text categorization and medical diagnosis. Nowadays, we notice that multilabel classification methods are increasingly required by modern applications, such as protein function classification, music categorization and semantic scene classification.
介紹
傳統的單標簽分類(中國也有翻譯成單標記,不過我個人認為還是應該翻譯成一個名詞)學習是從一個只屬于一個標簽l的樣本集合中學習,其中每一個標簽屬于一個互斥的標簽集合L |L| > 1。在多標簽分類中,每個樣本屬于一個L樣本集合的一個子集。在過去,多標簽分類由文本分類和醫學分析而產生和推動的。現在,我們發現現代的許多應用對多標簽分類方法需求持續增長,比如蛋白質分類,音樂歸類,和語義場景分類。
原文比較抽象,翻譯比較費解,這里再翻譯兩個Tsoumakas的綜述Multi-Label Classification: On View(這是一篇不錯的入門論文)中的兩個例子:一篇有關基督教教堂對于Da Vinci Code(達芬奇密碼,這本書也不錯)電影發行反應的新聞文章,可以同時被分類(歸類)到Society/Religion(社會/宗教)和Arts/Movies(藝術/電影)。在semantic scene分類中,一張照片可以屬于多個概念類別,如它可以同時屬于日出和海灘。
http://mlkd.csd.auth.gr/multilabel.html中有數據集和一些已經完成的底層代碼,不過作者實現的分類器都是非常Na?ve的。因為做多標簽分類的人比較少,所以我也不打算在Blog中介紹有關的東西,介紹這一篇是希望能有更多的人一起做多標簽分類,再一點就是在我失敗的研究生學習中知道了一點沒幾個人知道的東西,與大家分享。
最后再講一句多余的,源代碼中mulan.examples.CrossValidationExperiment是一個示例,里面的代碼基本是自解釋的。
zz from: http://quweiprotoss.blog.163.com/blog/static/408828832009299195976/
?
Multi-Label是一個比較新的研究(http://mlkd.csd.auth.gr/multilabel.html)。
傳統的單標簽分類(中國也有翻譯成單標記,不過我個人認為還是應該翻譯成一個名詞)學習是從一個只屬于一個標簽l的樣本集合中學習,其中每一個標簽屬于一個互斥的標簽集合L |L| > 1。在多標簽分類中,每個樣本屬于一個L樣本集合的一個子集。在過去,多標簽分類由文本分類和醫學分析而產生和推動的。現在,我們發現現代的許多應用對多標簽分類方法需求持續增長,比如蛋白質分類,音樂歸類,和語義場景分類。
原文比較抽象,翻譯比較費解,這里再翻譯兩個Tsoumakas的綜述Multi-Label Classification: On View(這是一篇不錯的入門論文)中的兩個例子:一篇有關基督教教堂對于Da Vinci Code(達芬奇密碼,這本書也不錯)電影發行反應的新聞文章,可以同時被分類(歸類)到Society/Religion(社會/宗教)和Arts/Movies(藝術/電影)。在semantic scene分類中,一張照片可以屬于多個概念類別,如它可以同時屬于日出和海灘。
Mulan(http://sourceforge.net/projects/mulan/)
Mulan is a package of Java classes for Multi-label classification. Mulan contains several problem transformation and algorithm adaptation methods for multilabel classification, an uation framework that computes several multilabel classification uation measures and a class providing data set statistics. Mulan is built on top of Weka and it therefore requires the indicated version of Weka and Java v1.5 or better. Mulan accepts input files in ARFF format structured in the following way: The input attributes must be followed by |L| attributes, where L the set of labels. These attributes accept values from the set {0, 1}. A value of 1 for these attributes indicates that an instance belongs to this label, while a value of 0 that it does not belong to this label.
Eclipse運行Mulan操作步驟:
(1)下載Mulan,解壓;
(2)運行Eclipse,New Java Project,命名隨便;
(3)在src目錄下 New package, 命名為mulan;
(4)單擊mulan 右擊 import FileSystem, 選擇解壓的整個文件夾;
(5)右擊工程 Properties Libraries選項卡 單擊Add External JARs;
(6)選擇Weka安裝目錄下的 weka.jar;
(7)運行examples.CrossValidationExperiment,即可。
zz from:http://blog.sina.com.cn/s/blog_5fe506110100di6c.html
總結
- 上一篇: 流行的开源数据挖掘tool
- 下一篇: 永不停止的程序。。。