什么是机器学习?
1.引言
為了解決計算機上的問題,我們需要一個算法。算法是應該執行以將輸入變換到輸出的指令序列。例如,可以設計用于排序的算法。輸入是一組數字,輸出是它們的有序列表。對于相同的任務,可以有各種算法,并且我們可能有興趣找到最有效的算法,需要最少數量的指令或存儲器或兩者。
然而,對于某些任務,我們沒有算法,例如,告訴垃圾郵件來自合法電子郵件。我們知道輸入是什么:電子郵件文檔,在最簡單的情況下是一個字符文件。我們知道輸出應該是什么:a是/否輸出,指示消息是否是垃圾郵件。我們不知道如何將輸入轉換為輸出。什么可以被視為垃圾郵件的時間和個人的變化。
我們缺乏知識,我們在數據中彌補。我們可以輕松編譯成千上萬的示例郵件,其中一些我們知道是垃圾郵件,我們想要的是“學習”什么是垃圾郵件。換句話說,我們希望計算機(機器)自動提取這個任務的算法。沒有必要學習排序數字,我們已經有了算法;但有許多應用程序,我們沒有一個算法,但有數據示例。
隨著計算機技術的進步,我們目前有能力存儲和處理大量的數據,以及通過計算機網絡從物理上遠程的位置訪問它。大多數數據采集設備現在是數字的,并記錄可靠的數據。只有當存儲的數據被分析并變成我們可以利用例如進行預測的信息時,存儲的數據才變得有用。
我們不知道哪些人可能購買這種冰淇淋的味道,或這本作者的下一本書,或看到這部新電影,或訪問這個城市,或點擊此鏈接。如果我們知道,我們不需要對數據進行任何分析;我們只是去寫下代碼。但是因為我們沒有,我們只能收集數據,希望從數據中提取這些和類似問題的答案。
我們確信,有一個解釋我們觀察的數據的過程。雖然我們不知道生成數據的過程的細節 - 例如,消費者行為 - 我們知道它不是完全隨機的。人們不去超市,隨意買東西。當他們買啤酒,他們買的籌碼;他們在夏天購買冰淇淋和在冬天購買Glühwein的香料。數據中有某些模式。
我們可能無法完全識別該過程,但我們相信我們可以構建一個良好和有用的近似。該近似可能不能解釋一切,但仍然能夠解釋數據的某些部分。我們認為雖然識別完整的過程可能不可能,但我們仍然可以檢測某些模式或規律。這是機器學習的利基。這樣的模式可以幫助我們理解過程,或者我們可以使用這些模式進行預測:假設未來,至少在不久的將來,與收集樣本數據時的過去不會有太大的不同,未來的預測也可以預期是正確的。
2.機器學習定義
第一個機器學習的定義來自于Arthur Samuel。他定義機器學習:在進行特定編程的情況下,給予計算機學習能力的領域。
第二個定義來自卡內基梅隆大學,Tom定義的機器學習:一個好的學習問題定義如下,他說,一個程序被認為能從經驗E中學習,解決任務T,達到性能度量值P,當且僅當,有了經驗E后,經過P評判,程序在處理T 時的性能有所提升。
機器學習方法對大型數據庫的應用稱為數據挖掘。在數據挖掘中,處理大量數據以構建具有有價值使用的簡單模型,例如,具有高預測準確性。其應用領域豐富:除了零售業,金融銀行分析其過去的數據,以建立模型,用于信用應用,欺詐檢測和股票市場。在制造中,學習模型用于優化,控制和故障排除。在醫學中,學習程序用于醫學診斷。在電信中,分析呼叫模式用于網絡優化和最大化服務質量。在科學上,物理學,天文學和生物學中的大量數據只能通過計算機進行足夠快的分析。萬維網是巨大的;它不斷增長,并且不能手動地進行搜索相關信息。
但機器學習不僅僅是一個數據庫問題;它也是人工智能的一部分。為了變得聰明,處于變化的環境中的系統應該具有學習的能力。如果系統可以學習并適應這種變化,則系統設計者不需要預見并提供針對所有可能情況的解決方案。
機器學習也幫助我們找到視覺,語音識別和機器人技術中的許多問題的解決方案。讓我們以識別面孔為例:這是一個我們毫不費力的任務;每天我們通過觀察他們的面部或從他們的照片,盡管姿勢,照明,發型等的差異認識家庭成員和朋友。但我們不知不覺地做,不能解釋我們如何做。因為我們不能解釋我們的專業知識,我們不能寫計算機程序。同時,我們知道面部圖像不僅僅是像素的隨機集合;面部有結構。它是對稱的。有眼睛,鼻子,嘴巴,位于臉上的某些地方。每個人的臉是由這些的特定組合組成的圖案。通過分析人的樣本面部圖像,學習程序捕獲該人特有的模式,然后通過檢查給定圖像中的該模式來識別。這是模式識別的一個示例。
機器學習是編程計算機以使用示例數據或過去經驗來優化性能標準。我們有一個定義了一些參數的模型,學習是計算機程序的執行,以使用訓練數據或過去經驗來優化模型的參數。該模型可以是預測在未來做出預測,或描述性以從數據獲得知識,或兩者皆有。
機器學習在構建數學模型中使用統計學理論,因為核心任務是從樣本做推理。 計算機科學的作用有兩個方面:第一,在培訓中,我們需要高效的算法來解決優化問題,以及存儲和處理大量的數據。 第二,一旦模型被學習,其表示和用于推斷的算法解決方案也需要是高效的。 在某些應用中,學習或推斷算法的效率,即其空間和時間復雜度,可能與其預測精度一樣重要。
[1] Alpaydin B E. Introduction to Machine Learning (2nd Edition[J]. 2010.
總結
- 上一篇: 启明星辰:安全管理平台(SOC)
- 下一篇: 怎么创建具有真实纹理的CG场景岩石?