當前位置：首頁 >

中国人工智能学会通讯——智能系统测评：挑战和机遇

發布時間：2025/3/15 27 豆豆

生活随笔收集整理的這篇文章主要介紹了中国人工智能学会通讯——智能系统测评：挑战和机遇小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上面的四個報告從四個維度討論了智能系統測評的不同方面——產業、基礎、基礎和倫理。我受中國人工智能學會的委托，組織這次分論壇，為此對這個領域做了一些調研和思考，從現狀和挑戰這兩個方面做了一些初步總結。

在現狀方面，從三個維度存在著差異和爭論。第一，智能系統測評是基于外顯行為，還是基于內在機制？第二，基于任務，還是基于標準？第三，基于同類比較，還是基于參照物比照？在挑戰方面，存在著用戶依賴性、環境相關性和價值滲透性三個方面的挑戰。

現狀方面：外顯行為與內在機制的爭論。現代人工智能最初想法的提出是圖靈提出了所謂圖靈測試，我們看到的這張圖。在屋子里有一個智能系統，還有一個人。裁判是人類，在屋子外面，只能通過對話來了解和他對話的兩個對象，以分辨哪個是人、哪個是機器。如果裁判不能正確的區分，就認為智能系統具有了人的智能。這樣的設計顯然是基于智能系統外顯行為的，另外也是基于參照物的，和人對比。還有一個特點是只考慮問答，沒有考慮環境的影響。對圖靈測試是有很多批評的，最有名的是賽爾，美國哲學家，提出了Chinese room作為質疑。假設屋子里有一本手冊，根據它從外顯行為上可以回答所有的問題，但是不理解人的問題，是不是真的有智能？這種質疑說到底是行為和機制的爭論，這個爭論是長期的。但是在爭論里，大家一致的意見，都很少討論與環境的關系，主要在爭論評價“智能”應該依據行為，還是機制。

我們回顧圖靈最初的文章，實際上預測到了幾乎所有的批評和質疑，而且他提前對所有預期到的批評和質疑都進行了反駁。實際上，應該測行為還是測機制，這是我們現在仍然很難說得清楚的，因為它是非常深的一個問題。我在這兒只是枚舉這些現象。這是第一個方面的現狀。

第二個方面存在的一些差異，不一定是爭論，主要是差異。測評是基于任務，還是基于某種標準？基于任務的測評是設定一組任務，根據完成情況評分。剛才劉挺教授講到，自然語言評測也是基于很多任務——廣義的任務，當然任務都是系統化地來測。從自然語言領域之外來看，比如考慮測智能系統，很容易想到測智商，其實它也是針對任務來測。還有一個在機器人領域的國際測試，這個和自然語言領域是比較類似的，長期在進行系統性的測試。在服務機器人領域最大的測試是RoboCup@Home，在家庭環境和其他近似真實的環境中，對服務機器人整機性能進行系統化測試。也是基于任務的，每年設計不同的任務，有的任務難一點，基本上像剛才劉挺教授說的，比大家能做到的稍微強一點，也有少數測試很難，大多數隊伍都是零分。這個測試一般三年有一次大的變化，變化以后可能任務提得比較難。它是分階段的。第一階段，大家都能得分。但是到第二階段，可能大部分都得零分了。到第三年可能做得好一點。這是基于任務的。基于標準的測試是參照給定的標準打分。典型例子就是產品的評測，今天我們請來的鄭軍奇總經理，他演講中介紹了機器人產品的檢測、認證，現在有一個完整體系。對于產品來說，當然是有標準的，所以他說首先要制定標準。可能我們在人工智能學會，學術界的關注更多一點。產品測試是針對特定產品、特定功能、特定品質的，問題是比較明確的。假設要測一個服務機器人的樣機，它現在還不是產品，預期未來5~10年成為產品，現在定它的標準就有難度，只好不斷地提任務，通過完成任務的情況進行測評。這兩種思路是有差異的。但是它們之間現在看并沒有太多的矛盾，而是可以用到不同的場合，是互補的。

第三類差異是在同類里面比較，還是和參照物進行比較。同類測試的例子，比如對話系統或者同類機器人，得分多少可以比較。智商依年齡段進行對比，同類機器人進行對比。基于參照物的比較也是非常多的，一般會基于人工智能和人做對比，這種例子也很多。后面還有一個嘉賓的發言，北京大學蘇彥捷教授。中科大和北大2013年做了一些合作，考慮參考智商測試的標準和方法，來對機器人智能做一些測評。這里面還有很多挑戰，一會兒蘇教授會作進一步介紹。

其實圖靈測試也是和人比較，很明顯是和人做對比。還有我們都知道的IBM做的Watson人機大戰。本來是人的擂臺賽，Watson也去參賽，最后贏了人類兩位冠軍。一位連續勝了170多場，這是非常厲害的。還有一位勝的場次最多，勝了300多場。最終Watson還是贏了他們兩位。我們知道深藍和Alphago比的是國際象棋和圍棋，也是和人對比。兩種比較的方法也是存在著差異的。當然，它們之間是不是有多少爭論，那倒不一定，倒是給我們提供了不同的檢測、測試、評價手段，我們根據情況可以選擇需要的。

在這些現狀的基礎上，智能系統測評存在什么疑難和挑戰？我初步總結有三項。

第一項挑戰：用戶依賴性。其實做人工智能的人很多是做信息出身的，如果不做產品，對用戶之間的差異有時可能考慮的相對少一些，因為計算機科學技術是以標準化為基礎的。但是到了人工智能領域，對用戶的依賴性還是很大的。也就是說，有時不同的用戶，對相同智能系統的相同行為會給出矛盾的評價。所以，如果某些智能系統依賴于用戶評價，對這樣的系統進行測評是有挑戰性的。

信息推薦其實就有這種情況，不同的用戶對信息的要求不一樣，即所謂個性化。還有在機器人領域中的復雜家庭服務，不同的家庭生活習慣是不一樣的，所以對于機器人提供服務的要求也是不一樣的。這樣我們就會發現，對智能系統的測評實際上涉及對智能系統用戶的某種測評，或者用戶研究。做產品的人對這方面是很清楚的，而做科研的人，可能過去對這方面考慮的比較少。用戶需求通常是隱含在產品檢測中，但是傳統的產品和產品檢測往往很少考慮用戶的個性化需求。現在大家開始重視個性化，這樣就產生了用戶依賴性。這里還有一個可能對我們形成挑戰的因素——傳統的科學評價準則往往要求測試者無關，因為傳統的科學標準認為，測試應該是客觀的，所以應該和客戶無關。現在看來，用戶依賴性對智能系統測評提出了挑戰。

第二項挑戰是環境相關性，這對服務機器人來說是比較明顯的，還有其他一些智能系統也會存在類似情況。我們看圖靈測試，其實假定了環境無關性。但是也有一些智能系統和應用環境相關度較高，比較典型的例子就是現在做的很多的無人車。一個有一定基礎的技術團隊，其實做個一兩年，最多兩三年，就可以在簡單的情況下完成無人駕駛的任務。簡單的路況情況下并不復雜，比如各種標記物和交通標志容易識別的場景中，很快就能做出可以上路的無人車。但是實際路況變復雜以后，難度就增加很多。高速公路上和市區道路難度是很不一樣的。中國和歐美情況也不一樣。在中國無人車的挑戰非常大，主要挑戰是來源于環境復雜性。再比如智能服務機器人，現在提到服務機器人，往往認為就是對話機器人，其實核心的智能服務機器人是具有移動操作功能的。比如將來能當家政服務員、當保姆的，或者餐館服務員，這兩種機器人都在現在的測試里有反映。實際上這些測試的設計是要同時設計環境的，要考慮環境難度的。

我們更深入地考慮一下，這個挑戰更進一步的難點是什么？任意給定的真實環境，讓機器人適應它是不難的，環境給定以后總有辦法。但是讓一臺設計好的機器人能適應所有可能的真實環境，這是非常難的。說到底，這就是國際人工智能最近十多年一直說的環境的不可預測性。服務機器人進入千家萬戶，掃地是比較簡單的，如果是更復雜的任務，就和環境和用戶有關了，存在著不可預測性。設計者不能預測未來會出現什么環境，這樣一種不可預測性，對于系統建造和智能評價都是存在的，這也提出了一種挑戰。

為了把上面這個深層難點說的更清楚，簡單介紹一下智能機器人的結構，見圖1。智能機器人作用于環境和人，對環境

有感知和行動，圖中這邊是感知，那邊是行動。機器人總是依賴于世界模型或大量的標注數據。在規則性任務和結構化環境中，我們可以讓世界模型或者標注數據和環境保持一致。但是這種要求其實在現實中通常很難得到滿足，所以出現的科學挑戰有時是從環境里發生的，見圖2。不可預

預測的場景，變異的場景，表面上看差不多，有些細節變化，可這些細節變化導致環境對智能系統來說變得非常不一樣。在自然語言里也有類似的現象，比如剛才劉教授舉例，一句話里少了一個“的”字，兩句話的意思就完全不一樣了。在環境里也是這樣，某些很小的變化對機器人有非常大的影響。主要的挑戰在于，這種變異導致世界模型或者標注數據和現實環境發生了脫節，以至于機器人的行動出了問題。這就是環境相關性。

第三項挑戰：價值滲透性。智能系統測評測的是性能或者能力，可以測性能，也可以測能力。至于與實用價值有什么關系，作為學者可能不會直接考慮實用價值。當然，最初做研究可能有一個背景和應用需求，但是研究過程中就不太關注實用價值了。圖靈測試也沒有直接考慮實用價值，智商測試也沒有考慮實用價值。我們看IBM的Watson，也不是直接用實用價值評價的。但是，如果我們一直按照這樣的思路往下走，可能會有問題。不考慮智能系統的價值滲透性，是不利于智能系統測評發揮作用的。我們看到，智能系統能力的大小和它的實用價值，實際上相互之間可以出現各種各樣的關系，比如說有些系統能力很強，未必它的價值就大；還有的系統能力比較弱，也未必價值小。現在中國互聯網一些服務，如微信，太好用了。你說它有多強的智能，這個是不好說的，可是它的價值非常大。我覺得能力與價值兩者之間的關系可能需要協調，不是只考慮一個側面，而是要考慮兩個側面。否則我們對能力做了很多評價，而且發現能力很強，但是它的作用不大。這對人工智能的發展可能不是一件好事。

我初步總結了三方面的挑戰，那么該如何回答這些挑戰？我們需要進一步努力。回答這些挑戰，其實還有一些很難的事情，我用圖3加以說明。在機器人領域，

技術和應用的空間是非常大的，比如從能力維度，我們很粗的來劃分，有感知、操作、移動、認知、交互；從應用維度來說，可以分類為工業、農業、消費、民用、醫療、商業、運輸，這個分類是歐盟對機器人的分類。這些分類看起來分的更細一點，因為其中每一個行業都非常大。從應用場景來說，有過程的，如工業生產；有用到設備上的；有應用于設施的；也有應用于場合的。現在我們在國內看到的機器人產品，常見的例子比如工業機器人，是用于過程的，它的能力就是操作。這是一個例子，在圖3中用紅線表示。還有對話和提供信息服務的機器人，用于一些場合，交互能力用于商業，這是第二個常見的例子，圖3中用綠線表示。第三個例子，掃地機器人，是用于家庭或室內環境，這是用于設施的，它的能力只涉及移動的能力，圖3中用藍線表示。這種機器人按照歐盟的分類叫做消費機器人。其實這三種類型的機器人已經涵蓋了現有機器人產品或者機器人研發的相當大的比例，可能超過50%。從圖3可以看出，我們還可以連很多別的線，這樣就會有很多種其他類型的機器人。而且未必是只用單一的能力去提供服務，可能是多種能力組合起來，這樣一組合又形成非常多的可能產品。這張圖中，組合起來會出現非常多的智能系統種類，這些情況下怎么做智能系統的測評？這是非常有挑戰性的。

下面舉一個綜合性例子，試圖表明未來的人機交互場景是什么樣的，進而表明智能系統測評的復雜性，見圖4。這個例子是

中科大機器人團隊為自己設計的未來目標，我們希望機器人未來幾年能夠實現這一目標。用戶問：“冰箱的用途是什么？”這是典型的問答。我們的機器人叫可佳，她回答用戶：“冰箱是用于食品保鮮的。”用戶：“怎么保鮮？”這個問題稍微有點深了。可佳：“把買回來的食品放進冰箱，吃的時候再取出來。”到目前為止，人機交互都在對話范圍里，再看下面。用戶：“太好了，你趕緊從冰箱里拿一點吃的給我。”顯然，用戶的這個問題已經不是單純的問答型任務了，而是要提供服務的，包含移動和操作功能，機器人要開冰箱，把食物拿出來，這就不是簡單的對話了。如果對話聊天那好辦，機器人可以說“你自己去拿，你怎么那么懶”，這個問題就很容易地解決了。但是服務機器人不行，真要把食品從冰箱里拿出來送給用戶。我們假想將來會出現這樣的情況，可佳說：“你別做夢了，家里的東西都被你吃光了。”這體現出機器人要了解家庭里所有相關信息，以便根據真實的信息了解和執行用戶的服務請求。接下來用戶說：“那你怎么不買？”這也不是聊天，這是在批評，在指責機器人：你任務沒有完成好，東西被我吃光了，你就該買，你怎么不買？可佳說：“昨天就告訴你了，你不給錢。”我們假想，未來錢還是用戶自己管的，沒有交給機器人。所以機器人的意思是，你不給錢，我買不了，這是在做因果推理，而且是針對現實場景的因果推理，不是局限于抽象概念之間的因果推理。用戶說：“給你，你多買一點，然后趕緊給我做午飯”，意味著用戶肚子餓了。可佳說：“這就對了，下次早點給。你等著吧。”意思是買完以后給你做午飯。這個例子反映了很多問題，圖3里枚舉的各種機器人能力，都在這個人機交互過程中有體現。

從這個例子可以看出，像這樣的一種機器人，我們怎樣對它進行測評？涉及的問題是相當復雜的，非常有挑戰性，也非常有科學意義和實用價值。

最后，我發言的結語。測評是人工智能研究的開端，目前正在成為核心內容之一。智能系統測評存在長期爭論，隱含重大科學問題、社會需求和技術需求。智能系統測評極具挑戰性，涉及人工智能研究與應用的一系列深層課題，孕育著人工智能突破的重大機遇；也涉及倫理方面的問題、社會保障體系的問題，以及其他社會性問題。這些挑戰在當前的情況下非常值得我們去思考和努力。

（本報告根據速記整理）

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的中国人工智能学会通讯——智能系统测评：挑战和机遇的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [.NET领域驱动设计实战系列]专题二：
下一篇： Windows Azure Web Si

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

中国人工智能学会通讯——智能系统测评：挑战和机遇

總結