日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

揭秘阿里打假AI大脑:数据总量186个国家图书馆

發(fā)布時間:2023/11/21 综合教程 32 生活家
生活随笔 收集整理的這篇文章主要介紹了 揭秘阿里打假AI大脑:数据总量186个国家图书馆 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

  李根發(fā)自廈門
  量子位報道公眾號 QbitAI

  “令人震驚的是,在打假這方面,美國竟然遠遠落后!”一個月前,美國司法委員會副主席、共和黨參議員道格·柯林斯痛陳美國被假貨所困的問題,其話言猶在耳,近日阿里打假技術(shù)又拿下國內(nèi)高規(guī)格的技術(shù)大獎。

  8 月 9 日,由工信部、公安部及網(wǎng)信辦三部委指導(dǎo)主辦的“中國人工智能高峰論壇”在廈門召開,經(jīng)過層層評選,阿里巴巴知產(chǎn)保護科技大腦被三部委評為“人工智能創(chuàng)新之星” 。

  知識產(chǎn)權(quán)保護所指,更喜聞樂見的叫法就是打假。而阿里的知產(chǎn)保護科技大腦是一套阿里 20 年間積累的海量線上線下假貨特征庫、打假經(jīng)驗聚合而成的算法技術(shù)系統(tǒng),獨創(chuàng)“安全 AI”大腦是核心。

  這套系統(tǒng) 24 小時自動運轉(zhuǎn),96% 的疑似侵權(quán)鏈接在發(fā)布的那一剎那就已被秒殺。在過去 3 年,阿里已使用這套技術(shù)協(xié)助全國 31 個省份、227 個區(qū)縣的警方抓獲制售假嫌疑人 4439 人,搗毀制售假窩點 4289 個。

  從美國議員點贊到國內(nèi)技術(shù)大獎,可以說時節(jié)已至,阿里打假正進入爆發(fā)性收獲階段。量子位也了解到這背后的安全 AI 運作之力、創(chuàng)新之功,接下來為大家一一揭秘。

  1 AI 大腦=5 萬人類

  知產(chǎn)保護科技大腦,就是誠心和技術(shù)創(chuàng)新的集大成產(chǎn)品。

  該“大腦”完全由阿里自主研發(fā),已經(jīng)被廣泛應(yīng)用于阿里生態(tài)內(nèi)外,對假貨、山寨、侵權(quán)盜版等進行偵測和打擊。

  而且作為一支上崗 AI,各方面實力,不僅比人類干得好,而且很多能力人類干不了。

  阿里方面公布了一系列驚人數(shù)據(jù)表現(xiàn):

  如果人工查看 1 張圖片的信息需要 10 秒鐘,那么 5 萬人同時工作的效率才能勉強趕上“知產(chǎn)保護科技大腦”掃描甄別圖片的速度。淘寶天貓平臺每日新發(fā)商品量以千萬計,如果人工巡查,138889 人工作 1 天才能把這項工作完成。

  阿里安全圖靈實驗室負責(zé)人薛暉透露,這套系統(tǒng)的樣本數(shù)據(jù)總量相當(dāng)于 186 個中國國家圖書館藏量,僅累積的打假圖片樣本量就超過 137 億張,用 0.3 毫米的標準相紙打印疊加后高達 4110 千米,是世界最高建筑迪拜塔的 4964 倍,約等于 464 個珠穆朗瑪峰。

  驚人的效果背后是阿里在安全場景里不斷進化技術(shù)力量所鍛造的“安全 AI”風(fēng)控體系。

  安全 AI 如何服務(wù)知識產(chǎn)權(quán)保護?

  所謂安全 AI,是指安全場景中進化出的 AI,擁有更強、更多元化的能力;與當(dāng)前通用 AI 的理念不同,阿里安全更注重在業(yè)務(wù)安全領(lǐng)域垂直縱深的技術(shù)積淀,開發(fā)出適應(yīng)更多安全場景的新一代 AI,讓傳統(tǒng)的安全問題找到新的 AI 解法。阿里在今年年初提出這一全新理念,稱其將成為未來網(wǎng)絡(luò)安全問題的核心解法。

  據(jù)悉,阿里知產(chǎn)科技大腦的秘密在于四大智能核心引擎,涵蓋阿里上百項自主研發(fā)的安全 AI 技術(shù)。分而解之,涉及感知引擎、認知引擎、決策引擎和計算引擎。

  實際也是通用人工智能(AGI)必不可少的四大引擎,只是阿里垂直為打假服務(wù)。

  從項目申報說明里,也能尋得宏觀架構(gòu)脈絡(luò)。

  感知引擎:核心技術(shù)是計算機視覺技術(shù)及語音識別技術(shù),是整個系統(tǒng)的感官系統(tǒng),是對象識別的基礎(chǔ),為形成后續(xù)一系列處理動作邁出第一步。

  包括,用于開店身份認證環(huán)節(jié)的人臉識別、聲紋識別、活體檢測等生物識別技術(shù);用于開店資質(zhì)核驗環(huán)節(jié)的證件識別、篡改檢測技術(shù);用于線上商品識別的商標檢測、物體檢測、光學(xué)字符識別技術(shù);用于營銷環(huán)節(jié)檢測的廣告圖片分析和視頻直播監(jiān)測技術(shù),以及用于原創(chuàng)作品保護的多媒體檢索和圖像水印技術(shù)等。

  正是“感官系統(tǒng)”精準的語音、圖像、音頻、視頻感知能力,整個系統(tǒng)才能在數(shù)億復(fù)雜數(shù)據(jù)中準確識別出需要保護和防御的對象,進行下一步處理。

  認知引擎:核心技術(shù)是自然語言處理技術(shù)。

  認知引擎是系統(tǒng)的“翻譯官”,讓機器懂得文字的意思、人類聲音的含義,以及人們動作的性質(zhì),從而判斷善意\惡意、危險\安全。

  具體包括針對海量商品結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建的知識圖譜技術(shù);面向海外電商的多語言分析和機器翻譯技術(shù),針對外部反饋的評價、輿情進行識別的語義分析技術(shù);以及融合多模態(tài)信息,對商品的全面認知和理解的技術(shù)。

  第三,決策引擎:核心技術(shù)包括深度學(xué)習(xí)和強化學(xué)習(xí)兩塊,用來解決現(xiàn)實中的復(fù)雜決策問題。

  它是系統(tǒng)的“軍師”,決定了系統(tǒng)該如何動作,如何更合理有效地作出最佳應(yīng)對。例如當(dāng)面臨商家實時博弈、信息內(nèi)容的變異,以及黑產(chǎn)的惡意攻擊時,在全局視角下做出更有利的決策。

  最后還有計算引擎,包括實時指標計算系統(tǒng)、分布式異構(gòu)計算系統(tǒng)、和大規(guī)模圖神經(jīng)網(wǎng)絡(luò)系統(tǒng)。

  這是打假 AI 大腦的發(fā)動機,它強大的性能保證了系統(tǒng)在數(shù)千并發(fā)、數(shù)十億數(shù)據(jù)面前坦然自若、精準高效。

  計算引擎背后,支撐的是阿里云機器學(xué)習(xí)平臺 - PAI 3.0。

  它可以實現(xiàn)單任務(wù)支持上千 worker 并發(fā)訓(xùn)練,并支持 5k+ 超大規(guī)模異構(gòu)計算集群,保證全天候監(jiān)控數(shù)十億商品異常情況,以及對經(jīng)營者行為的全方位監(jiān)督。

  臺上一分鐘,技術(shù) 20 年功

  值得一提的是,四大引擎架構(gòu)宏觀,但背后每一項技術(shù)積累,都是工程師們?nèi)找箍喙Φ慕Y(jié)果。

  值得一提的是,打假 AI 大腦是阿里安全“安全 AI”落地應(yīng)用場景之一。阿里在高風(fēng)險、強對抗的場景中不斷進化 AI 的力量,通過小樣本學(xué)習(xí)、多模態(tài)、自監(jiān)督學(xué)習(xí)等新技術(shù)的持續(xù)應(yīng)用,在內(nèi)容安全、新零售安全、交易安全等百余場景中持續(xù)應(yīng)用,其凝聚著阿里安全圖靈實驗室在 AI 領(lǐng)域超過 10 年的技術(shù)積淀,實現(xiàn)水滴石穿。

  從最近阿里安全圖靈實驗室在人工智能頂會的論文中,不難發(fā)現(xiàn)其功力所在。

  這是阿里發(fā)表于 ECCV Workshop 2018 的論文,核心分享了其在視頻分析領(lǐng)域的技術(shù)進展。

  也是阿里從視頻中識假打假,保護原創(chuàng)的秘訣所在。

  當(dāng)前業(yè)內(nèi)通行的視頻分析,往往先預(yù)訓(xùn)練 CNN 網(wǎng)絡(luò)提取特征分類,其后采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN、LSTM)進行序列建模。

  但視頻的特征序列一般較長,且含有多級結(jié)構(gòu)(hierarchical data structure),即一個視頻包含幀、鏡頭、場景、事件等。

  而且?guī)c幀、鏡頭與鏡頭間的關(guān)系十分復(fù)雜,不僅僅是前后幀的順序關(guān)系,通過一般的序列建模方法,RNN 無法表達如此復(fù)雜的關(guān)系,建模效果較差。

  因此阿里研究團隊通過深度卷積圖神經(jīng)網(wǎng)絡(luò)(DCGN)對視頻的幀、鏡頭、事件進行多級的建模,逐漸地從幀級、鏡頭級,一直到視頻級進行抽象,從而獲得視頻全局的表達,進而進行分類:

  最后方法在 youtube8m 數(shù)據(jù)集上驗證后,效果相對其他經(jīng)典的序列建模方法,都有提升。

  論文傳送門:https://arxiv.org/abs/1906.00377

  還有自然語言處理領(lǐng)域的進展,同樣是知產(chǎn)保護科技大腦的關(guān)鍵技術(shù)。

  阿里安全圖靈實驗室入選 IJCAI 2019 的文章,主題是面向?qū)ο蟮那楦蟹治?,主要目標是挖掘出評論對象,同時判斷情感表達的極性。

  一般而言,很多對于商品質(zhì)量描述的蛛絲馬跡,會隱藏在用戶對商品的評論中,卻很難從商品本身中發(fā)現(xiàn)問題,這也是 NLP 技術(shù)能夠施展拳腳的場景。

  論文中提出的方法,通俗來說是利用全局信息、結(jié)合上下文語境去識別情感對象,而不再是預(yù)測每個字對應(yīng)的序列標簽。

  這種方法基于詞塊方法,提出更簡單高效的聯(lián)合模型,同時抽取情感表達對象以及判斷其情感極性。

  具體步驟上,首先對評論語句中的所有候選詞塊進行向量表示,然后提出了一種基于詞塊的注意力機制來預(yù)測詞塊對應(yīng)的標簽和極性。

  最后公開數(shù)據(jù)集評測對比后,證明比現(xiàn)有方法表現(xiàn)更好。

  另一項體現(xiàn)場景挑戰(zhàn)和技術(shù)水平的是安全場景特有的對抗性問題。

  售假賣家往往會通過改變“標題”和“描述”以躲避傳統(tǒng)規(guī)則和模型的識別,但這并非完全無跡可尋。

  混淆語言是一種被用于在對抗交流場景下實現(xiàn)規(guī)避檢測的技術(shù)手段。

  對抗交流場景包括敏感信息傳播、負面情感表達、秘密行動策劃以及違法交易等。混淆語言的實現(xiàn)方式通常是在原始文本里進行變異詞的替換。

  監(jiān)管機構(gòu)在識別此類文本時,需要根據(jù)一組關(guān)鍵詞進行掃描過濾。盡管引入了一些語義擴展技術(shù),但是由于文本中的歧義性以及變異的無邊界,導(dǎo)致識別此類文本的準確率和召回率都十分有限。

  阿里在 WWW 2019 上發(fā)表的論文,集中披露了該方向上的核心進展。

  該論文的主要思路是將混淆語言識別轉(zhuǎn)化為一個文本匹配任務(wù),即每條待檢測信息,是否匹配一個掃描關(guān)鍵詞,并且同時整合了文本信息的文本表示和視覺表示。

  這里的視覺表示指的是文字自身的視覺效果,而不是信息中的圖片,主要是因為在進行文本變異混淆時,經(jīng)常會出用一些看起來像的字符進行替換,這種變異導(dǎo)致了混淆后的內(nèi)容在語義上可能已經(jīng)跟原始內(nèi)容沒有任何關(guān)聯(lián),但是從視覺效果上卻可以產(chǎn)生聯(lián)系。

  阿里的模型利用 BiLSTM 對文本特征進行表示,通過基于模板匹配的方式對視覺特征進行表示,通過多模態(tài)的整合,可以比傳統(tǒng)方法表現(xiàn)出更高的準確率和召回率。

  另外就是結(jié)合圖像視頻和自然語言處理的多模態(tài)任務(wù)解決方法。

  論文發(fā)表于 ICASSP 2019,其中列舉的任務(wù)也頗有意思:通過一段文本描述,自動地編輯源圖像使其符合給出的文本描述,從而簡化圖像編輯流程,是一種基于文本的圖像編輯方法。電商網(wǎng)站中的商品本身就是文字與圖片的混合內(nèi)容,因此可以期待這項技術(shù)可以加強對商品內(nèi)涵的理解,更有助于發(fā)現(xiàn)假、劣商品。

  感興趣的盆友可移步傳送門:http://arxiv.org/abs/1903.07499

  最后再介紹一項業(yè)內(nèi) sexy,且對打假 AI 貢獻不小的技術(shù)進展:小樣本學(xué)習(xí)。

  假貨問題(安全問題)中最頭疼的點,莫過于對新出現(xiàn)的風(fēng)險缺乏足夠訓(xùn)練的樣本,導(dǎo)致諸多優(yōu)秀機器學(xué)習(xí)算法望而卻步。

  在 CVPR 2018 上,阿里安全圖靈實驗室團隊,圍繞業(yè)內(nèi)前沿的“零樣本視頻檢索”挑戰(zhàn),給出解決方案。

  視頻檢索,通常要在文本和視頻之間提取跨模態(tài)相關(guān)性,需要基于內(nèi)容匹配。

  但阿里的方法之不同,在于提出了一種內(nèi)容無關(guān)的方法,通過雙重深度編碼網(wǎng)絡(luò)來將視頻和文本編碼為各自模態(tài)的密集式表征。

  并且雙重編碼概念簡單、切實有效,還可以端到端學(xué)習(xí)。

  在三個基準數(shù)據(jù)集 MSR-VTT、TRECVID2016、2017 上實驗后,證明阿里提出的零樣本視頻檢索方法已達到目前最佳。

  論文傳送門:http://arxiv.org/abs/1809.06181

  就在最近的機器學(xué)習(xí)頂會 IJCAI-2019 上,阿里安全成功舉辦了第一屆 AAAC 競賽(Alibaba Adversarial AI Challenge)以及 AIBS 研討會(Artificial Intelligence for Business Security),旨在探索面臨對抗攻擊時,如何解決 AI 模型的安全性問題。競賽和會議吸引了來自 24 個國家和地區(qū)的 2000 多支隊伍參與,過程中涌現(xiàn)出不少新思路和新方法,極大地推動了這一領(lǐng)域的發(fā)展。

  “AI 發(fā)展趨勢是一定的,但 AI 應(yīng)用來解決安全問題時并不能生搬硬套,需要根據(jù)實際場景進行 AI 的技術(shù)升級,”薛暉在今年年初的公開采訪中就指出,安全會成為未來 AI 開發(fā)的最大挑戰(zhàn), “安全 AI”會成為未來網(wǎng)絡(luò)安全問題的新解法,也將在 2019 年迎來爆發(fā)期。

  如今阿里“知產(chǎn)保護科技大腦”的成功實踐不斷得到行業(yè)乃至全球的認可,正印證了這一斷言。

  阿里打假 AI,用技術(shù)解決社會問題

  打假 AI 大腦成功,幕后原因并不難分析。這也會是阿里各項業(yè)務(wù)在 AI 時代里還會更繁榮的保證。

  打假作為綜合因素導(dǎo)致的社會問題,利用 AI 等技術(shù)實現(xiàn)其實并非易事,沒有對比,可能就難看出誠心誠意。

  比如美國電商巨頭亞馬遜,其實也在今年新推出一項名為“Project Zero”的打假防偽項目,通過與品牌方合作,打擊消除假貨。

  但在具體技術(shù)機制上,就目前披露情況而言,相較阿里的打假 AI 大腦,技術(shù)上稍遜一籌。

  因為亞馬遜的打假 AI,還需要合作品牌提供 logo、商標和其他信息,甚至讓品牌方利用工具標記并禁止仿冒品。

  仍更多依賴監(jiān)督學(xué)習(xí)的方式,自動化程度和 AI 通用能力還相對不足,對于阿里無監(jiān)督、小數(shù)據(jù)學(xué)習(xí)和系統(tǒng)性大腦,技術(shù)能力和挑戰(zhàn),高下立判。

  所以也難怪美國眾議院司法委員會副主席道格·柯林斯在調(diào)研了亞馬遜、eBay、阿里在內(nèi)的電商平臺后,給出評價:“阿里巴巴的打假政策和項目比任何美國同行都有效得多。”

  阿里之道の一以貫之

  最后,阿里的做事方式,依然值得關(guān)注。

  宏觀層面來看,知產(chǎn)保護科技大腦,依然是又一次阿里式創(chuàng)新的成功。

  打假難題,源頭在社會發(fā)展階段和人性劣根處。面臨的挑戰(zhàn),跟電商、支付、物流、計算和自主芯片,本質(zhì)相同,困難無差。

  但阿里之道一以貫之,為打假而生的 AI 大腦系統(tǒng),依然是淘寶天貓、支付寶、阿里云,菜鳥和平頭哥模式的延續(xù):

  技術(shù)驅(qū)動,打造系統(tǒng)平臺,從根本上解決問題。而且俠之大者,未來也會兼濟天下,賦能各行各業(yè)甚至各國,能力所至,皆受其益。

  會有那么一天,天下再無假貨嗎?夢想或許還是可以有的。

  畢竟 AI can do,Ali is doing……

總結(jié)

以上是生活随笔為你收集整理的揭秘阿里打假AI大脑:数据总量186个国家图书馆的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。