日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

中国人工智能学会通讯——智能系统测评:挑战和机遇

發(fā)布時(shí)間:2025/3/15 windows 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中国人工智能学会通讯——智能系统测评:挑战和机遇 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

上面的四個(gè)報(bào)告從四個(gè)維度討論了智能系統(tǒng)測評(píng)的不同方面——產(chǎn)業(yè)、基礎(chǔ)、基礎(chǔ)和倫理。我受中國人工智能學(xué)會(huì)的委托,組織這次分論壇,為此對(duì)這個(gè)領(lǐng)域做了一些調(diào)研和思考,從現(xiàn)狀和挑戰(zhàn)這兩個(gè)方面做了一些初步總結(jié)。

在現(xiàn)狀方面,從三個(gè)維度存在著差異和爭論。第一,智能系統(tǒng)測評(píng)是基于外顯行為,還是基于內(nèi)在機(jī)制?第二,基于任務(wù),還是基于標(biāo)準(zhǔn)?第三,基于同類比較,還是基于參照物比照?在挑戰(zhàn)方面,存在著用戶依賴性、環(huán)境相關(guān)性和價(jià)值滲透性三個(gè)方面的挑戰(zhàn)。

現(xiàn)狀方面:外顯行為與內(nèi)在機(jī)制的爭論。現(xiàn)代人工智能最初想法的提出是圖靈提出了所謂圖靈測試,我們看到的這張圖。在屋子里有一個(gè)智能系統(tǒng),還有一個(gè)人。裁判是人類,在屋子外面,只能通過對(duì)話來了解和他對(duì)話的兩個(gè)對(duì)象,以分辨哪個(gè)是人、哪個(gè)是機(jī)器。如果裁判不能正確的區(qū)分,就認(rèn)為智能系統(tǒng)具有了人的智能。這樣的設(shè)計(jì)顯然是基于智能系統(tǒng)外顯行為的,另外也是基于參照物的,和人對(duì)比。還有一個(gè)特點(diǎn)是只考慮問答,沒有考慮環(huán)境的影響。對(duì)圖靈測試是有很多批評(píng)的,最有名的是賽爾,美國哲學(xué)家,提出了Chinese room作為質(zhì)疑。假設(shè)屋子里有一本手冊(cè),根據(jù)它從外顯行為上可以回答所有的問題,但是不理解人的問題,是不是真的有智能?這種質(zhì)疑說到底是行為和機(jī)制的爭論,這個(gè)爭論是長期的。但是在爭論里,大家一致的意見,都很少討論與環(huán)境的關(guān)系,主要在爭論評(píng)價(jià)“智能”應(yīng)該依據(jù)行為,還是機(jī)制。

我們回顧圖靈最初的文章,實(shí)際上預(yù)測到了幾乎所有的批評(píng)和質(zhì)疑,而且他提前對(duì)所有預(yù)期到的批評(píng)和質(zhì)疑都進(jìn)行了反駁。實(shí)際上,應(yīng)該測行為還是測機(jī)制,這是我們現(xiàn)在仍然很難說得清楚的,因?yàn)樗欠浅I畹囊粋€(gè)問題。我在這兒只是枚舉這些現(xiàn)象。這是第一個(gè)方面的現(xiàn)狀。

第二個(gè)方面存在的一些差異,不一定是爭論,主要是差異。測評(píng)是基于任務(wù),還是基于某種標(biāo)準(zhǔn)?基于任務(wù)的測評(píng)是設(shè)定一組任務(wù),根據(jù)完成情況評(píng)分。剛才劉挺教授講到,自然語言評(píng)測也是基于很多任務(wù)——廣義的任務(wù),當(dāng)然任務(wù)都是系統(tǒng)化地來測。從自然語言領(lǐng)域之外來看,比如考慮測智能系統(tǒng),很容易想到測智商,其實(shí)它也是針對(duì)任務(wù)來測。還有一個(gè)在機(jī)器人領(lǐng)域的國際測試,這個(gè)和自然語言領(lǐng)域是比較類似的,長期在進(jìn)行系統(tǒng)性的測試。在服務(wù)機(jī)器人領(lǐng)域最大的測試是RoboCup@Home,在家庭環(huán)境和其他近似真實(shí)的環(huán)境中,對(duì)服務(wù)機(jī)器人整機(jī)性能進(jìn)行系統(tǒng)化測試。也是基于任務(wù)的,每年設(shè)計(jì)不同的任務(wù),有的任務(wù)難一點(diǎn),基本上像剛才劉挺教授說的,比大家能做到的稍微強(qiáng)一點(diǎn),也有少數(shù)測試很難,大多數(shù)隊(duì)伍都是零分。這個(gè)測試一般三年有一次大的變化,變化以后可能任務(wù)提得比較難。它是分階段的。第一階段,大家都能得分。但是到第二階段,可能大部分都得零分了。到第三年可能做得好一點(diǎn)。這是基于任務(wù)的。基于標(biāo)準(zhǔn)的測試是參照給定的標(biāo)準(zhǔn)打分。典型例子就是產(chǎn)品的評(píng)測,今天我們請(qǐng)來的鄭軍奇總經(jīng)理,他演講中介紹了機(jī)器人產(chǎn)品的檢測、認(rèn)證,現(xiàn)在有一個(gè)完整體系。對(duì)于產(chǎn)品來說,當(dāng)然是有標(biāo)準(zhǔn)的,所以他說首先要制定標(biāo)準(zhǔn)。可能我們?cè)谌斯ぶ悄軐W(xué)會(huì),學(xué)術(shù)界的關(guān)注更多一點(diǎn)。產(chǎn)品測試是針對(duì)特定產(chǎn)品、特定功能、特定品質(zhì)的,問題是比較明確的。假設(shè)要測一個(gè)服務(wù)機(jī)器人的樣機(jī),它現(xiàn)在還不是產(chǎn)品,預(yù)期未來5~10年成為產(chǎn)品,現(xiàn)在定它的標(biāo)準(zhǔn)就有難度,只好不斷地提任務(wù),通過完成任務(wù)的情況進(jìn)行測評(píng)。這兩種思路是有差異的。但是它們之間現(xiàn)在看并沒有太多的矛盾,而是可以用到不同的場合,是互補(bǔ)的。

第三類差異是在同類里面比較,還是和參照物進(jìn)行比較。同類測試的例子,比如對(duì)話系統(tǒng)或者同類機(jī)器人,得分多少可以比較。智商依年齡段進(jìn)行對(duì)比,同類機(jī)器人進(jìn)行對(duì)比。基于參照物的比較也是非常多的,一般會(huì)基于人工智能和人做對(duì)比,這種例子也很多。后面還有一個(gè)嘉賓的發(fā)言,北京大學(xué)蘇彥捷教授。中科大和北大2013年做了一些合作,考慮參考智商測試的標(biāo)準(zhǔn)和方法,來對(duì)機(jī)器人智能做一些測評(píng)。這里面還有很多挑戰(zhàn),一會(huì)兒蘇教授會(huì)作進(jìn)一步介紹。

其實(shí)圖靈測試也是和人比較,很明顯是和人做對(duì)比。還有我們都知道的IBM做的Watson人機(jī)大戰(zhàn)。本來是人的擂臺(tái)賽,Watson也去參賽,最后贏了人類兩位冠軍。一位連續(xù)勝了170多場,這是非常厲害的。還有一位勝的場次最多,勝了300多場。最終Watson還是贏了他們兩位。我們知道深藍(lán)和Alphago比的是國際象棋和圍棋,也是和人對(duì)比。兩種比較的方法也是存在著差異的。當(dāng)然,它們之間是不是有多少爭論,那倒不一定,倒是給我們提供了不同的檢測、測試、評(píng)價(jià)手段,我們根據(jù)情況可以選擇需要的。

在這些現(xiàn)狀的基礎(chǔ)上,智能系統(tǒng)測評(píng)存在什么疑難和挑戰(zhàn)?我初步總結(jié)有三項(xiàng)。

第一項(xiàng)挑戰(zhàn):用戶依賴性。其實(shí)做人工智能的人很多是做信息出身的,如果不做產(chǎn)品,對(duì)用戶之間的差異有時(shí)可能考慮的相對(duì)少一些,因?yàn)橛?jì)算機(jī)科學(xué)技術(shù)是以標(biāo)準(zhǔn)化為基礎(chǔ)的。但是到了人工智能領(lǐng)域,對(duì)用戶的依賴性還是很大的。也就是說,有時(shí)不同的用戶,對(duì)相同智能系統(tǒng)的相同行為會(huì)給出矛盾的評(píng)價(jià)。所以,如果某些智能系統(tǒng)依賴于用戶評(píng)價(jià),對(duì)這樣的系統(tǒng)進(jìn)行測評(píng)是有挑戰(zhàn)性的。

信息推薦其實(shí)就有這種情況,不同的用戶對(duì)信息的要求不一樣,即所謂個(gè)性化。還有在機(jī)器人領(lǐng)域中的復(fù)雜家庭服務(wù),不同的家庭生活習(xí)慣是不一樣的,所以對(duì)于機(jī)器人提供服務(wù)的要求也是不一樣的。這樣我們就會(huì)發(fā)現(xiàn),對(duì)智能系統(tǒng)的測評(píng)實(shí)際上涉及對(duì)智能系統(tǒng)用戶的某種測評(píng),或者用戶研究。做產(chǎn)品的人對(duì)這方面是很清楚的,而做科研的人,可能過去對(duì)這方面考慮的比較少。用戶需求通常是隱含在產(chǎn)品檢測中,但是傳統(tǒng)的產(chǎn)品和產(chǎn)品檢測往往很少考慮用戶的個(gè)性化需求。現(xiàn)在大家開始重視個(gè)性化,這樣就產(chǎn)生了用戶依賴性。這里還有一個(gè)可能對(duì)我們形成挑戰(zhàn)的因素——傳統(tǒng)的科學(xué)評(píng)價(jià)準(zhǔn)則往往要求測試者無關(guān),因?yàn)閭鹘y(tǒng)的科學(xué)標(biāo)準(zhǔn)認(rèn)為,測試應(yīng)該是客觀的,所以應(yīng)該和客戶無關(guān)。現(xiàn)在看來,用戶依賴性對(duì)智能系統(tǒng)測評(píng)提出了挑戰(zhàn)。

第二項(xiàng)挑戰(zhàn)是環(huán)境相關(guān)性,這對(duì)服務(wù)機(jī)器人來說是比較明顯的,還有其他一些智能系統(tǒng)也會(huì)存在類似情況。我們看圖靈測試,其實(shí)假定了環(huán)境無關(guān)性。但是也有一些智能系統(tǒng)和應(yīng)用環(huán)境相關(guān)度較高,比較典型的例子就是現(xiàn)在做的很多的無人車。一個(gè)有一定基礎(chǔ)的技術(shù)團(tuán)隊(duì),其實(shí)做個(gè)一兩年,最多兩三年,就可以在簡單的情況下完成無人駕駛的任務(wù)。簡單的路況情況下并不復(fù)雜,比如各種標(biāo)記物和交通標(biāo)志容易識(shí)別的場景中,很快就能做出可以上路的無人車。但是實(shí)際路況變復(fù)雜以后,難度就增加很多。高速公路上和市區(qū)道路難度是很不一樣的。中國和歐美情況也不一樣。在中國無人車的挑戰(zhàn)非常大,主要挑戰(zhàn)是來源于環(huán)境復(fù)雜性。再比如智能服務(wù)機(jī)器人,現(xiàn)在提到服務(wù)機(jī)器人,往往認(rèn)為就是對(duì)話機(jī)器人,其實(shí)核心的智能服務(wù)機(jī)器人是具有移動(dòng)操作功能的。比如將來能當(dāng)家政服務(wù)員、當(dāng)保姆的,或者餐館服務(wù)員,這兩種機(jī)器人都在現(xiàn)在的測試?yán)镉蟹从场?shí)際上這些測試的設(shè)計(jì)是要同時(shí)設(shè)計(jì)環(huán)境的,要考慮環(huán)境難度的。

我們更深入地考慮一下,這個(gè)挑戰(zhàn)更進(jìn)一步的難點(diǎn)是什么?任意給定的真實(shí)環(huán)境,讓機(jī)器人適應(yīng)它是不難的,環(huán)境給定以后總有辦法。但是讓一臺(tái)設(shè)計(jì)好的機(jī)器人能適應(yīng)所有可能的真實(shí)環(huán)境,這是非常難的。說到底,這就是國際人工智能最近十多年一直說的環(huán)境的不可預(yù)測性。服務(wù)機(jī)器人進(jìn)入千家萬戶,掃地是比較簡單的,如果是更復(fù)雜的任務(wù),就和環(huán)境和用戶有關(guān)了,存在著不可預(yù)測性。設(shè)計(jì)者不能預(yù)測未來會(huì)出現(xiàn)什么環(huán)境,這樣一種不可預(yù)測性,對(duì)于系統(tǒng)建造和智能評(píng)價(jià)都是存在的,這也提出了一種挑戰(zhàn)。

為了把上面這個(gè)深層難點(diǎn)說的更清楚,簡單介紹一下智能機(jī)器人的結(jié)構(gòu),見圖1。智能機(jī)器人作用于環(huán)境和人,對(duì)環(huán)境

有感知和行動(dòng),圖中這邊是感知,那邊是行動(dòng)。機(jī)器人總是依賴于世界模型或大量的標(biāo)注數(shù)據(jù)。在規(guī)則性任務(wù)和結(jié)構(gòu)化環(huán)境中,我們可以讓世界模型或者標(biāo)注數(shù)據(jù)和環(huán)境保持一致。但是這種要求其實(shí)在現(xiàn)實(shí)中通常很難得到滿足,所以出現(xiàn)的科學(xué)挑戰(zhàn)有時(shí)是從環(huán)境里發(fā)生的,見圖2。不可預(yù)

預(yù)測的場景,變異的場景,表面上看差不多,有些細(xì)節(jié)變化,可這些細(xì)節(jié)變化導(dǎo)致環(huán)境對(duì)智能系統(tǒng)來說變得非常不一樣。在自然語言里也有類似的現(xiàn)象,比如剛才劉教授舉例,一句話里少了一個(gè)“的”字,兩句話的意思就完全不一樣了。在環(huán)境里也是這樣,某些很小的變化對(duì)機(jī)器人有非常大的影響。主要的挑戰(zhàn)在于,這種變異導(dǎo)致世界模型或者標(biāo)注數(shù)據(jù)和現(xiàn)實(shí)環(huán)境發(fā)生了脫節(jié),以至于機(jī)器人的行動(dòng)出了問題。這就是環(huán)境相關(guān)性。

第三項(xiàng)挑戰(zhàn):價(jià)值滲透性。智能系統(tǒng)測評(píng)測的是性能或者能力,可以測性能,也可以測能力。至于與實(shí)用價(jià)值有什么關(guān)系,作為學(xué)者可能不會(huì)直接考慮實(shí)用價(jià)值。當(dāng)然,最初做研究可能有一個(gè)背景和應(yīng)用需求,但是研究過程中就不太關(guān)注實(shí)用價(jià)值了。圖靈測試也沒有直接考慮實(shí)用價(jià)值,智商測試也沒有考慮實(shí)用價(jià)值。我們看IBM的Watson,也不是直接用實(shí)用價(jià)值評(píng)價(jià)的。但是,如果我們一直按照這樣的思路往下走,可能會(huì)有問題。不考慮智能系統(tǒng)的價(jià)值滲透性,是不利于智能系統(tǒng)測評(píng)發(fā)揮作用的。我們看到,智能系統(tǒng)能力的大小和它的實(shí)用價(jià)值,實(shí)際上相互之間可以出現(xiàn)各種各樣的關(guān)系,比如說有些系統(tǒng)能力很強(qiáng),未必它的價(jià)值就大;還有的系統(tǒng)能力比較弱,也未必價(jià)值小。現(xiàn)在中國互聯(lián)網(wǎng)一些服務(wù),如微信,太好用了。你說它有多強(qiáng)的智能,這個(gè)是不好說的,可是它的價(jià)值非常大。我覺得能力與價(jià)值兩者之間的關(guān)系可能需要協(xié)調(diào),不是只考慮一個(gè)側(cè)面,而是要考慮兩個(gè)側(cè)面。否則我們對(duì)能力做了很多評(píng)價(jià),而且發(fā)現(xiàn)能力很強(qiáng),但是它的作用不大。這對(duì)人工智能的發(fā)展可能不是一件好事。

我初步總結(jié)了三方面的挑戰(zhàn),那么該如何回答這些挑戰(zhàn)?我們需要進(jìn)一步努力。回答這些挑戰(zhàn),其實(shí)還有一些很難的事情,我用圖3加以說明。在機(jī)器人領(lǐng)域,

技術(shù)和應(yīng)用的空間是非常大的,比如從能力維度,我們很粗的來劃分,有感知、操作、移動(dòng)、認(rèn)知、交互;從應(yīng)用維度來說,可以分類為工業(yè)、農(nóng)業(yè)、消費(fèi)、民用、醫(yī)療、商業(yè)、運(yùn)輸,這個(gè)分類是歐盟對(duì)機(jī)器人的分類。這些分類看起來分的更細(xì)一點(diǎn),因?yàn)槠渲忻恳粋€(gè)行業(yè)都非常大。從應(yīng)用場景來說,有過程的,如工業(yè)生產(chǎn);有用到設(shè)備上的;有應(yīng)用于設(shè)施的;也有應(yīng)用于場合的。現(xiàn)在我們?cè)趪鴥?nèi)看到的機(jī)器人產(chǎn)品,常見的例子比如工業(yè)機(jī)器人,是用于過程的,它的能力就是操作。這是一個(gè)例子,在圖3中用紅線表示。還有對(duì)話和提供信息服務(wù)的機(jī)器人,用于一些場合,交互能力用于商業(yè),這是第二個(gè)常見的例子,圖3中用綠線表示。第三個(gè)例子,掃地機(jī)器人,是用于家庭或室內(nèi)環(huán)境,這是用于設(shè)施的,它的能力只涉及移動(dòng)的能力,圖3中用藍(lán)線表示。這種機(jī)器人按照歐盟的分類叫做消費(fèi)機(jī)器人。其實(shí)這三種類型的機(jī)器人已經(jīng)涵蓋了現(xiàn)有機(jī)器人產(chǎn)品或者機(jī)器人研發(fā)的相當(dāng)大的比例,可能超過50%。從圖3可以看出,我們還可以連很多別的線,這樣就會(huì)有很多種其他類型的機(jī)器人。而且未必是只用單一的能力去提供服務(wù),可能是多種能力組合起來,這樣一組合又形成非常多的可能產(chǎn)品。這張圖中,組合起來會(huì)出現(xiàn)非常多的智能系統(tǒng)種類,這些情況下怎么做智能系統(tǒng)的測評(píng)?這是非常有挑戰(zhàn)性的。

下面舉一個(gè)綜合性例子,試圖表明未來的人機(jī)交互場景是什么樣的,進(jìn)而表明智能系統(tǒng)測評(píng)的復(fù)雜性,見圖4。這個(gè)例子是

中科大機(jī)器人團(tuán)隊(duì)為自己設(shè)計(jì)的未來目標(biāo),我們希望機(jī)器人未來幾年能夠?qū)崿F(xiàn)這一目標(biāo)。用戶問:“冰箱的用途是什么?”這是典型的問答。我們的機(jī)器人叫可佳,她回答用戶:“冰箱是用于食品保鮮的。”用戶:“怎么保鮮?”這個(gè)問題稍微有點(diǎn)深了。可佳:“把買回來的食品放進(jìn)冰箱,吃的時(shí)候再取出來。”到目前為止,人機(jī)交互都在對(duì)話范圍里,再看下面。用戶:“太好了,你趕緊從冰箱里拿一點(diǎn)吃的給我。”顯然,用戶的這個(gè)問題已經(jīng)不是單純的問答型任務(wù)了,而是要提供服務(wù)的,包含移動(dòng)和操作功能,機(jī)器人要開冰箱,把食物拿出來,這就不是簡單的對(duì)話了。如果對(duì)話聊天那好辦,機(jī)器人可以說“你自己去拿,你怎么那么懶”,這個(gè)問題就很容易地解決了。但是服務(wù)機(jī)器人不行,真要把食品從冰箱里拿出來送給用戶。我們假想將來會(huì)出現(xiàn)這樣的情況,可佳說:“你別做夢(mèng)了,家里的東西都被你吃光了。”這體現(xiàn)出機(jī)器人要了解家庭里所有相關(guān)信息,以便根據(jù)真實(shí)的信息了解和執(zhí)行用戶的服務(wù)請(qǐng)求。接下來用戶說:“那你怎么不買?”這也不是聊天,這是在批評(píng),在指責(zé)機(jī)器人:你任務(wù)沒有完成好,東西被我吃光了,你就該買,你怎么不買?可佳說:“昨天就告訴你了,你不給錢。”我們假想,未來錢還是用戶自己管的,沒有交給機(jī)器人。所以機(jī)器人的意思是,你不給錢,我買不了,這是在做因果推理,而且是針對(duì)現(xiàn)實(shí)場景的因果推理,不是局限于抽象概念之間的因果推理。用戶說:“給你,你多買一點(diǎn),然后趕緊給我做午飯”,意味著用戶肚子餓了。可佳說:“這就對(duì)了,下次早點(diǎn)給。你等著吧。”意思是買完以后給你做午飯。這個(gè)例子反映了很多問題,圖3里枚舉的各種機(jī)器人能力,都在這個(gè)人機(jī)交互過程中有體現(xiàn)。

從這個(gè)例子可以看出,像這樣的一種機(jī)器人,我們?cè)鯓訉?duì)它進(jìn)行測評(píng)?涉及的問題是相當(dāng)復(fù)雜的,非常有挑戰(zhàn)性,也非常有科學(xué)意義和實(shí)用價(jià)值。

最后,我發(fā)言的結(jié)語。測評(píng)是人工智能研究的開端,目前正在成為核心內(nèi)容之一。智能系統(tǒng)測評(píng)存在長期爭論,隱含重大科學(xué)問題、社會(huì)需求和技術(shù)需求。智能系統(tǒng)測評(píng)極具挑戰(zhàn)性,涉及人工智能研究與應(yīng)用的一系列深層課題,孕育著人工智能突破的重大機(jī)遇;也涉及倫理方面的問題、社會(huì)保障體系的問題,以及其他社會(huì)性問題。這些挑戰(zhàn)在當(dāng)前的情況下非常值得我們?nèi)ニ伎己团Α?/p>

(本報(bào)告根據(jù)速記整理)

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的中国人工智能学会通讯——智能系统测评:挑战和机遇的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。