日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Google发布Objectron数据集

發(fā)布時間:2024/4/11 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Google发布Objectron数据集 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

正文字數(shù):1708 ?閱讀時長:2分鐘

僅僅通過在照片上訓練模型,機器學習(ML)的最新技術就已經(jīng)在許多計算機視覺任務中取得了卓越的準確性。在這些成功的基礎上,進一步提高對3D對象的理解,這將極大地促進更廣泛的應用,例如增強現(xiàn)實,機器人技術,自主性和圖像檢索。

作者 /?Adel Ahmadyan ?Liangkai Zhang

原文鏈接 / http://ai.googleblog.com/2020/11/announcing-objectron-dataset.html

今年早些時候,我們發(fā)布了MediaPipe Objectron,這是一套針對移動設備設計的實時3D對象檢測模型,這些模型在經(jīng)過完全注釋(annotated)的真實3D數(shù)據(jù)集上進行了訓練,可以預測對象的3D邊界框。

然而,由于與2D任務(例如ImageNet,COCO和Open Images)相比,因為缺少大型真實數(shù)據(jù)集,所以了解3D對象仍然是一項具有挑戰(zhàn)性的任務。為了使研究社區(qū)能夠不斷提高三維實體的理解,迫切需要發(fā)布以對象為中心的視頻數(shù)據(jù)集,該數(shù)據(jù)集可以捕獲對象的更多3D結構,同時匹配用于許多視覺任務的數(shù)據(jù)格式(例如視頻或攝像機流),以幫助訓練和確定機器學習模型的基準。

今天,我們很高興發(fā)布Objectron數(shù)據(jù)集,這是一個短的,以對象為中心的視頻剪輯的集合,可以從不同的角度捕獲更大的一組公共對象。每個視頻剪輯都隨附有AR會話元數(shù)據(jù),其中包括相機姿勢和稀疏點云。除此之外,數(shù)據(jù)還包含每個對象手工標注的3D邊框,用來描述對象的位置,方向和尺寸。數(shù)據(jù)集包括15K帶注釋的視頻剪輯,并補充了從不同地理區(qū)域的樣本中收集的超過4M帶注釋的圖像(覆蓋五大洲的10個國家/地區(qū))。

Objectron數(shù)據(jù)集中的示例視頻

三維實體檢測解決方案

除了和數(shù)據(jù)集一起之外,我們還將共享一個針對四類對象的三維實體檢測解決方案-鞋子,椅子,杯子和照相機。這些模型在MediaPipe中發(fā)布,MediaPipe是Google的跨平臺可定制ML解決方案的開源框架,適用于實時和流媒體,該解決方案還支持設備上的實時手部,虹膜和身體姿勢跟蹤等ML解決方案。

在移動設備上運行的3D對象檢測解決方案的示例結果

與以前發(fā)布的單階段Objectron模型相反,這些最新版本使用兩級架構。第一階段采用TensorFlow對象檢測模型來查找實體的2D裁剪。然后,第二階段使用圖像裁剪來估計3D邊框,同時為下一幀計算實體的2D裁剪,因此實體檢測器不需要運行每個幀。第二階段3D邊框預測器在Adreno 650移動GPU上以83 FPS運行。

參考3D對象檢測解決方案圖

3D對象檢測的評估指標

借助ground truth annotations,我們使用3Dinterp over union(IoU)相似度統(tǒng)計信息(一種用于計算機視覺任務的常用度量標準)來評估三維實體檢測模型的性能,該度量標準衡量邊框與地面真相的接近程度。

我們提出了一種算法,可為通用三維面向盒計算準確的3D IoU值。首先,我們使用Sutherland-Hodgman多邊形裁剪算法計算兩個盒子的面之間的交點。這類似于用于計算機圖形學的視錐剔除技術。相交的體積由所有修剪的多邊形的凸包計算。最后,根據(jù)兩個框的交點的體積和并集的體積計算IoU。我們將在發(fā)表數(shù)據(jù)集的同時發(fā)布評估指標的源代碼。

使用多邊形裁剪算法計算并集的三維交點(左):通過對方框裁剪多邊形計算每個面的交點。右:通過計算所有交點的凸包計算交點的體積(綠色)。

數(shù)據(jù)集格式

數(shù)據(jù)集的技術細節(jié),包括用法和教程,可在數(shù)據(jù)集網(wǎng)站上找到。數(shù)據(jù)集包括自行車,書籍,瓶子,照相機,谷物盒,椅子,杯子,筆記本電腦和鞋子,并存儲在Google Cloud存儲上的objectron存儲桶中,具有以下資源:

  • 視頻片段

  • 注釋標簽(實體的3D邊框)

  • AR元數(shù)據(jù)(例如照相機姿勢,點云和平面)

  • 已處理的數(shù)據(jù)集:帶注釋幀的改編版本,圖像的格式為tf.example,視頻的格式為SequenceExample。

  • 支持腳本以基于上述指標運行評估

  • 支持腳本以將數(shù)據(jù)加載到Tensorflow,PyTorch和Jax中并可視化數(shù)據(jù)集,包括“ Hello World”示例

有了數(shù)據(jù)集,我們還將開放數(shù)據(jù)管道,以在流行的Tensorflow,PyTorch和Jax框架中解析數(shù)據(jù)集。還提供了示例colab筆記本。

通過發(fā)布此Objectron數(shù)據(jù)集,我們希望使研究界能夠突破三維實體幾何理解的極限。我們還希望促進新的研究和應用。例如視圖合成,改進的三維表達和無監(jiān)督學習。加入我們的郵件列表并訪問我們的github頁面,請隨時關注未來的活動和發(fā)展。

致謝

這篇文章中描述的研究是由Adel Ahmadyan, Liangkai Zhang, Jianing?Wei, Artsiom Ablavatski, Mogan Shieh, Ryan Hickman, Buck Bourdon, Alexander Kanaukou, Chuo-Ling Chang, Matthias Grundmann, ?and Tom Funkhouser完成的。我們感謝Aliaksandr Shyrokau,Sviatlana Mialik,Anna Eliseeva和注釋團隊的高質量注釋。我們還要感謝Jonathan Huang和Vivek Rathod對TensorFlow對象檢測API的指導。

LiveVideoStackCon 2021 ShangHai

這個世界沒有準備好這一說

機會和技術不會主動敲開你的門

LiveVideoStackCon 2021?上海站

北京時間:2021年4月16日-4月17日

點擊【閱讀原文】了解大會詳情

總結

以上是生活随笔為你收集整理的Google发布Objectron数据集的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。