日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

GPT-4V 学会用键鼠上网,人类眼睁睁看着它发帖玩游戏

發布時間:2023/11/6 windows 46 传统文化
生活随笔 收集整理的這篇文章主要介紹了 GPT-4V 学会用键鼠上网,人类眼睁睁看着它发帖玩游戏 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
感謝網友 Alejandro86 的線索投遞!

GPT-4V 學會自動操縱電腦,這一天終于還是到來了。

只需要給 GPT-4V 接入鼠標鍵盤,它就能根據瀏覽器界面上網:

甚至還能快速摸清楚“播放音樂”的播放器網站和按鈕,給自己來一段 music:

是不是有點細思極恐了?

這是一個 MIT 本科生小哥整出來的新活,名叫 GPT-4V-Act

只需要幾個簡單的工具,GPT-4V 就能學會控制你的鍵盤和鼠標,用瀏覽器上網發帖、買東西甚至是玩游戲。

要是用到的工具出 bug 了,GPT-4V 甚至還能意識到、并試圖解決它。

來看看這是怎么做到的。

教 GPT-4V“自動上網”

GPT-4V-Act,本質上是一個基于 Web 瀏覽器的 AI 多模態助手(Chromium Copilot)。

它可以像人類一樣用鼠標、鍵盤和屏幕“查看”網頁界面,并通過網頁中的交互按鍵進行下一步操作。

要實現這種效果,除了 GPT-4V 以外,還用到了三個工具。

一個是 UI 界面,可以讓 GPT-4V“看見”網頁截圖,也能讓用戶與 GPT-4V 發生交互。

這樣,GPT-4V 就能將每一步運行思路都通過對話框的形式反映出來,用戶來決定是否要繼續讓它操作。

另一個是 Set-of-Mark Prompting(SoM)工具,讓 GPT-4V 學會交互的一款工具。

這個工具由微軟發明,目的是更好地對 GPT-4V 進行提示詞工程。

相比讓 GPT-4V 直接“看圖說話”,這個工具可以將圖片關鍵細節拆分成不同的部分,并進行編號,讓 GPT-4V 有的放矢:

對于網頁端也是如此,Set-of-Mark Prompting 用類似的方式讓 GPT-4V 知道從網頁瀏覽器的哪個部分找答案,并進行交互。

最后,還需要用到一個自動標注器(JS DOM auto-labeler),可以將網頁端所有能交互的按鍵標注出來,讓 GPT-4V 決定要按哪個。

一套流程下來,GPT-4V 不僅能準確判斷圖片上的哪些內容符合需求,還能準確找到交互按鍵,并學會“自動上網”。

這是個大項目,目前還只實現了部分功能,包括點擊、打字交互、自動標注等。

接下來,還有其他的一些功能要實現,例如試試 AI 打標器(目前網頁端的交互還是通過通過 JS 接口得知哪里能交互,不是 AI 識別的)、以及提示用戶輸入詳細信息等。

此外,作者也提到,現階段 GPT-4V-Act 用法上還有一些需要注意的地方。

例如,GPT-4V-Act 可能會被網頁打開后鋪天蓋地的彈窗小廣告給“整懵了”,然后出現交互 bug。

又例如,目前這種玩法可能會違反 OpenAI 的產品使用規定:

除非 API 允許,否則不得使用任何自動化或編程的方法從服務中提取數據并輸出,包括抓取、網絡收集或網絡數據提取。

所以用的時候也要低調一點(doge)

微軟 SoM 作者也來圍觀

這個項目在網上發出后,吸引了不少人的圍觀。

像是小哥用到的微軟 Set-of-Mark Prompting 工具的作者,就發現了這個項目:

出色的工作!

還有網友提到,甚至可以用來讓 AI 自己讀取驗證碼。

這個在 SoM 項目中提到過,GPT-4V 是能成功解讀驗證碼的(所以以后可能還真不知道是人還是機器在上網)。

與此同時,也有網友已經在想象桌面流自動化(desktop automation)的操作了。

對此作者回應稱:

AI 自動標注器應該能實現這個,我也確實在計劃制作一個更通用的 Copilot。

不過目前 GPT-4V 還是要收費的,有沒有其他的實現方法?

作者也表示,目前還沒有,但確實可能會嘗試 Fuyu-8B 或者 LLaVAR 這樣的開源模型。

免費的自動化桌面流 AI 助手,可以期待一波了。

參考鏈接:

  • [1]https://github.com/ddupont808/GPT-4V-Act

  • [2]https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/

本文來自微信公眾號:量子位 (ID:QbitAI),作者:蕭簫

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。

總結

以上是生活随笔為你收集整理的GPT-4V 学会用键鼠上网,人类眼睁睁看着它发帖玩游戏的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。