四个 00 后的疯狂开源计划:整个互联网转成大模型语料,1 亿 token 嵌入成本只需 1 美元
Arxiv 上所有論文轉成 Token,加起來不過 14.1GB 而已。
這是最新爆火開源計劃亞歷山大完成的壯舉。
事實上,這還只是第一步。
他們最終是想要將整個互聯網變成 Tokens,換言之全都轉化成 ChatGPT 等大模型理解這個世界的方式。
一旦這樣的數據集誕生,那豈不是為開發出 GPT-4 這樣的大模型又新增一大利器,上知天文下知地理指日可待了?!
消息一出,瞬間引發巨大關注。
網友們贊嘆,史詩般的。
而這背后僅是四個平均年齡 20 歲的少年發起,目前 Arxiv 所有論文數據集已經發布,他們將于下周發布嵌入(Embedding)搜索平臺。
從 Arxiv 上所有論文開始
超過 400 萬個項目、6 億個 token,30.7 億個向量維度。
這個名為亞歷山大的開源計劃,首先從 Arxiv 每篇論文上開始。
選擇的方式是嵌入,簡單來說,就是將現實世界的各種對象具象成計算機所能理解的向量。
最經典的例子就是將原始圖像表示為灰度像素。
這種技術最大的特點就是能夠表示出人類感知到的語義相似性。
比如,當有 10 個詞表示同一事物時,很難通過關鍵詞查找論文。但嵌入就可以完成,因此很適用于搜索、聚類、推薦和分類。
基于實用性和效率的考慮,開發團隊只選擇嵌入了論文的標題和摘要。
在測試各種模型之后,最終選擇使用 InstructorXL 文本嵌入模型,通過簡單地提供任務指令,而無需任何微調,適合于多種任務(比如分類、檢索、聚類、文本評估等)和領域(比如科學、金融、醫學等)》
下周他們將發布 Arxiv 搜索。目前為止的流程是,首先對 100 篇最接近的文章進行相似性搜索,然后即時計算這些內容的嵌入,并進行第二次更復雜的搜索。
最終目標是一整個互聯網嵌入計劃。
20 歲少年的瘋狂開源計劃
之所以要開展這樣一次瘋狂的開源計劃,主要有兩方面的原因。
一方面是嵌入巨大的價值。世界上很多問題只是搜索、 聚類、推薦或分類,而這些事情嵌入都非常擅長。而且也如前所述,可以解決一些復雜的難題。
另一方面成本是一次性的且很便宜。大多數情況下無需對同個文件進行二次計算。目前每 1 億個 Token 只需 1 美元。
但他們并沒有找到任何開放的嵌入數據集,因此這樣的組織應運而生。
接下來他們還將開放更多的數據集,而這些均由這些用戶自行選擇。在官網上除了已公開的數據集,剩下的幾個待開源項目開啟了投票通道。
值得一提的是,背后是一群平均年齡僅為 20 歲的少年 team 完成的。
而他們的團隊名字同樣也很霸氣,Macrocosm(宏觀世界)聯盟。
只要你放大到足夠遠,人類就會成為一個單一的生物。
就官方介紹,他們致力于為 ChatGPT 和其他類似產品構建插件,同時也在開發核心產品,基于大模型的個人研究助理,幫助學習、教學和科研。
感興趣的旁友可戳下方鏈接了解~
https://alex.macrocosm.so/download
參考鏈接:
-
[1]https://www.macrocosm.so/
-
[2]https://twitter.com/willdepue/status/1661781355452325889
-
[3]https://github.com/macrocosmcorp
-
[4]https://www.pinecone.io/learn/vector-embeddings/
本文來自微信公眾號:量子位 (ID:QbitAI),作者:白交
總結
以上是生活随笔為你收集整理的四个 00 后的疯狂开源计划:整个互联网转成大模型语料,1 亿 token 嵌入成本只需 1 美元的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 我们为什么需要量子互联网(所谓的量子互联
- 下一篇: 卢伟冰透露小米618最受欢迎产品 &ld