日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

如何构建自己的AI助理

發(fā)布時(shí)間:2024/1/18 ChatGpt 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何构建自己的AI助理 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄

引語(yǔ):

Serverless 和數(shù)據(jù)湖

AIGC 業(yè)務(wù)的場(chǎng)景和需求痛點(diǎn)

騰訊云存儲(chǔ) AIGC 解決方案

加速數(shù)據(jù)訓(xùn)練過(guò)程

全方位審核推理過(guò)程

管理推理結(jié)果

結(jié)語(yǔ):


引語(yǔ):

大家好我們是權(quán)知星球,開(kāi)啟你獨(dú)特的知識(shí)星際之旅

AIGC在過(guò)去一年中取得了長(zhǎng)足的進(jìn)步,要跟上時(shí)代的步伐,必須面對(duì)模型訓(xùn)練中的兩大難題:原始數(shù)據(jù)量大和訓(xùn)練結(jié)果需要高精度。

換言之,針對(duì)數(shù)據(jù)和AI處理任務(wù),如何高效又安全地完成,是每位開(kāi)發(fā)者所面臨的挑戰(zhàn)。

最近我參加了騰訊技術(shù)開(kāi)放日TechoDay的最新一期線上活動(dòng),讓我收獲了很多新的見(jiàn)解。

Serverless 和數(shù)據(jù)湖

數(shù)據(jù)湖就像是一個(gè)神奇的池塘,您可以在其中進(jìn)行大規(guī)模的數(shù)據(jù)采集和存儲(chǔ)。它可以容納各種格式和類型的數(shù)據(jù),包括結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)等等。需要時(shí),您可以迅速地對(duì)數(shù)據(jù)進(jìn)行處理和分析,就像在池塘里釣魚(yú)一樣,有鯉魚(yú)、有鮭魚(yú)、有鯊魚(yú),多姿多彩。

Serverless就像是一位巫師,你不需要去管理服務(wù)器,就能夠編寫和部署應(yīng)用程序。你只需告訴它你的意圖,它便會(huì)自動(dòng)完成所有的魔法操作,讓你集中精力于業(yè)務(wù)邏輯和創(chuàng)新。

?

當(dāng)Serverless技術(shù)應(yīng)用于數(shù)據(jù)湖時(shí),您可以以高度彈性和高效率的方式將數(shù)據(jù)輸入湖中,對(duì)數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換、壓縮和加密,使得數(shù)據(jù)可以在多個(gè)數(shù)據(jù)源和目的地之間自由地流動(dòng)。

AIGC 業(yè)務(wù)的場(chǎng)景和需求痛點(diǎn)

《騰訊云工具指南》最新一期刊登了Serverless數(shù)據(jù)湖存儲(chǔ)在AIGC場(chǎng)景中架構(gòu)與落地的詳細(xì)解讀,內(nèi)容全面而實(shí)用,充滿干貨。

讓我們接下來(lái)詳細(xì)討論一下——

隨著近年人工智能的熱潮,你可能經(jīng)常聽(tīng)到機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等新名詞,但對(duì)于非專業(yè)人士來(lái)說(shuō),這些概念可能顯得很遙遠(yuǎn),似乎與自己的工作關(guān)系不大。

在此之前,創(chuàng)作內(nèi)容完全依賴用戶生成的內(nèi)容(UGC)。雖然這可以發(fā)揮用戶的創(chuàng)造力,但效率卻很低。事實(shí)上,許多工作都有一定的規(guī)律性可循。因此,隨著計(jì)算機(jī)生成內(nèi)容(CGC)的發(fā)展,能夠提高效率,但缺少創(chuàng)新性。

?

隨著基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語(yǔ)言生成技術(shù)的人工智能創(chuàng)新(AIGC)的出現(xiàn),現(xiàn)在你可以自動(dòng)使用AI來(lái)撰寫一封仿柳永風(fēng)格的情書,創(chuàng)造出文字、圖像、音頻和視頻等各種創(chuàng)意內(nèi)容,同時(shí)也可通過(guò)分析用戶行為來(lái)提高市場(chǎng)營(yíng)銷效果。甚至還能幫你算出中彩票的概率,就像一個(gè)智能助手般的存在。這讓大家都開(kāi)始驚呼:原來(lái)AI還有這么多好玩的用法!

?

要讓人工智能變得更加聰明,就需要為其提供大量高質(zhì)量的知識(shí)。如何確保這一點(diǎn)?數(shù)據(jù)湖在機(jī)器學(xué)習(xí)和GPU訓(xùn)練的各個(gè)階段都扮演著重要的角色。它需要收集來(lái)自各種數(shù)據(jù)源的各種格式的未經(jīng)處理的原始數(shù)據(jù)并將其存儲(chǔ)在一個(gè)統(tǒng)一的數(shù)據(jù)庫(kù)中,以避免數(shù)據(jù)分散、重復(fù)和難以管理。在清洗、轉(zhuǎn)換、訓(xùn)練和存儲(chǔ)過(guò)程中,需要GPU和高性能存儲(chǔ)設(shè)備的支持,因此對(duì)存儲(chǔ)的吞吐量也有極高的要求。

由于內(nèi)容是由人工智能生成的,因此可能會(huì)產(chǎn)生政治敏感、色情暴力等不當(dāng)內(nèi)容的輸出。因此,為了避免被有關(guān)部門約談,需要進(jìn)行嚴(yán)格的內(nèi)容審核工作以控制風(fēng)險(xiǎn)。此外,如何有效地管理通過(guò)高成本訓(xùn)練生成的內(nèi)容,以便于內(nèi)容的再利用和在企業(yè)之間分發(fā),也需要進(jìn)行綜合考慮。

?

騰訊云存儲(chǔ) AIGC 解決方案

數(shù)據(jù)集下載與預(yù)處理

當(dāng)我們討論機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí),就好像在談?wù)撘粋€(gè)孩子的成長(zhǎng),需要為其提供充足的營(yíng)養(yǎng)和教育。在機(jī)器學(xué)習(xí)中,數(shù)據(jù)集就像孩子的食物,必須具備豐富性、代表性和可靠性,才能使模型變得更聰明,具備更強(qiáng)的預(yù)測(cè)能力。

?

常見(jiàn)的數(shù)據(jù)來(lái)源有多種,其中包括國(guó)內(nèi)外公開(kāi)數(shù)據(jù)、私有消息隊(duì)列和已有數(shù)據(jù)的中間件如關(guān)系型數(shù)據(jù)庫(kù)。

由于國(guó)內(nèi)的限制,我們常常難以得到足夠高質(zhì)量的數(shù)據(jù)集。為了獲得更全面、高質(zhì)量的數(shù)據(jù)集,我們需要前往國(guó)外的網(wǎng)站獲取。

當(dāng)然,需要遵守相關(guān)的法規(guī)和規(guī)定,以避免產(chǎn)生其他風(fēng)險(xiǎn)的發(fā)生。

然而,下載大量數(shù)據(jù)集所需的時(shí)間和帶寬資源相當(dāng)消耗,常常遇到各種網(wǎng)絡(luò)問(wèn)題,導(dǎo)致工作效率低下。

隨著去年OpenAI推出ChatGPT,各大獨(dú)角獸公司和垂直領(lǐng)域的企業(yè)紛紛加入,積極準(zhǔn)備在人工智能領(lǐng)域分一杯羹。因此,必須提升每個(gè)環(huán)節(jié)的效率,才能脫穎而出。

?

數(shù)據(jù)分布在不同的地理位置,為了盡可能地實(shí)現(xiàn)就近處理,需要有全球多地區(qū)分布的具備TB級(jí)公網(wǎng)帶寬的計(jì)算存儲(chǔ)資源。因此,只有大公司才能夠承擔(dān)這種規(guī)模的工作,小公司或個(gè)人很難勝任。

所有涉及到的數(shù)據(jù)入湖、數(shù)據(jù)處理和數(shù)據(jù)出湖的組件,均可采用云原生和Serverless的方式進(jìn)行高彈性和靈活的擴(kuò)展。

加速數(shù)據(jù)訓(xùn)練過(guò)程

在不同的領(lǐng)域中應(yīng)用人工智能時(shí),需要對(duì)其訓(xùn)練性能進(jìn)行不同的要求。COS即對(duì)象存儲(chǔ)服務(wù),可作為數(shù)據(jù)底座,類似大型倉(cāng)庫(kù),可容納所有數(shù)據(jù)。而GooseFS分布式文件系統(tǒng)則可充當(dāng)COS的加速層,提供快速的數(shù)據(jù)訪問(wèn)服務(wù),促進(jìn)數(shù)據(jù)處理效率。GooseFS還能根據(jù)不同領(lǐng)域的場(chǎng)景配置不同級(jí)別的緩存,以提高訓(xùn)練效率。

?

自動(dòng)駕駛技術(shù)依賴于大量的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練和優(yōu)化,進(jìn)而提高其準(zhǔn)確性和穩(wěn)定性。以自動(dòng)駕駛汽車為例,需要學(xué)習(xí)多種技能,如道路標(biāo)志識(shí)別、障礙物識(shí)別、交通信號(hào)燈判斷、路徑規(guī)劃等,均需要大量數(shù)據(jù)的支持。此外,由于各地交通規(guī)則和道路情況的差異,還需要收集大量數(shù)據(jù)進(jìn)行地域化訓(xùn)練和優(yōu)化。

?

如果只有幾個(gè)數(shù)據(jù)點(diǎn)用于自動(dòng)駕駛汽車的訓(xùn)練,那么它可能會(huì)表現(xiàn)得像一位經(jīng)驗(yàn)不足的司機(jī),容易迷路、闖紅燈、發(fā)生碰撞等,這并非我們所期望的結(jié)果。因此,為了提高自動(dòng)駕駛汽車的可靠性和安全性,就需要大量的數(shù)據(jù)用于訓(xùn)練和優(yōu)化,這就要求具備充足的算力和存儲(chǔ)空間來(lái)支持。

GooseFS利用全閃存緩存系統(tǒng)構(gòu)建,滿足自動(dòng)駕駛領(lǐng)域海量數(shù)據(jù)的訓(xùn)練需求。該全閃存緩存系統(tǒng)由獨(dú)立的存儲(chǔ)集群構(gòu)成,可實(shí)現(xiàn)快速數(shù)據(jù)讀取和寫入,極大地提升了訓(xùn)練效率。

在圖像生成領(lǐng)域中,例如StableDiffusion,它的訓(xùn)練目標(biāo)是同時(shí)進(jìn)行圖像分類和圖像生成。雖然圖像數(shù)據(jù)量也很大,但相對(duì)于自動(dòng)駕駛領(lǐng)域,StableDiffusion所用的數(shù)據(jù)集要小得多。

?

GooseFS可利用GPU節(jié)點(diǎn)上搭載的NVMESSD作為緩存介質(zhì),結(jié)合超過(guò)百臺(tái)的規(guī)模,能夠構(gòu)建PB級(jí)別的統(tǒng)一命名緩存空間,以滿足處理圖片訓(xùn)練數(shù)據(jù)集的緩存需求。

ChatGPT3.5是一種基于自然語(yǔ)言處理的模型,旨在生成自然語(yǔ)言文本。然而,與自動(dòng)駕駛領(lǐng)域相比,盡管自然語(yǔ)言的數(shù)據(jù)量很大,但其數(shù)據(jù)集要小得多。

?

針對(duì)這個(gè)訓(xùn)練數(shù)據(jù)的規(guī)模,我們可以利用GPU節(jié)點(diǎn)的內(nèi)存,構(gòu)建一個(gè)基于內(nèi)存的全局緩存系統(tǒng)-MEM-BasedGlobalCache。每個(gè)GPU節(jié)點(diǎn)只需提供一部分內(nèi)存,整個(gè)GPU訓(xùn)練集群就可以擁有達(dá)數(shù)十TB的緩存空間。而將訓(xùn)練數(shù)據(jù)集緩存在內(nèi)存中,能夠大幅提高數(shù)據(jù)訪問(wèn)速度。

?

因此,不同的模型和領(lǐng)域所需的數(shù)據(jù)量來(lái)進(jìn)行訓(xùn)練和優(yōu)化是不同的,這就需要我們根據(jù)實(shí)際情況進(jìn)行選擇。與從對(duì)象存儲(chǔ)COS中直接讀取相比,這種方法可以提高數(shù)十倍的數(shù)據(jù)訪問(wèn)速度。

全方位審核推理過(guò)程

合規(guī)內(nèi)容的范疇主要包括數(shù)據(jù)來(lái)源、用戶提問(wèn)以及由AI生成的回答。

記得前幾年,有一個(gè)視頻平臺(tái)上出現(xiàn)了一些涉及未成年人的不良內(nèi)容,引起了很多人的注意。如果當(dāng)時(shí)這些平臺(tái)有一個(gè)完善的內(nèi)容審核系統(tǒng),就可以在第一時(shí)間發(fā)現(xiàn)并刪除這些不良內(nèi)容。

?

然而,內(nèi)容種類繁多,包含文字、圖片、音視頻等,僅靠關(guān)鍵詞審核難以識(shí)別這些內(nèi)容。利用OCR技術(shù),可以對(duì)圖片或視頻中的文字進(jìn)行識(shí)別審核。

有時(shí)候用戶會(huì)用模糊或隱喻意味的言語(yǔ)發(fā)布違規(guī)內(nèi)容,例如辱罵、種族歧視等行為。若僅依靠關(guān)鍵詞審核,其實(shí)很難發(fā)現(xiàn)這些內(nèi)容的存在。但是,借助上下文語(yǔ)境審核,我們就可以根據(jù)文章或評(píng)論的整體內(nèi)涵來(lái)找出這些違規(guī)行為,并進(jìn)行應(yīng)有的處理。

路漫漫其修遠(yuǎn)兮,技術(shù)對(duì)決中,進(jìn)攻和防守雙方竭盡全力,只要能增加對(duì)手的攻擊成本,就算是贏家。

?

騰訊云數(shù)據(jù)萬(wàn)象現(xiàn)已推出多項(xiàng)審核模板,覆蓋了諸如色情、政治、廣告和暴力等多種場(chǎng)景和類型。這些模板都以強(qiáng)大的人工智能技術(shù)和豐富的數(shù)據(jù)資源為基礎(chǔ),能夠快速、準(zhǔn)確地檢測(cè)到違規(guī)內(nèi)容。此外,數(shù)據(jù)萬(wàn)象還針對(duì)AIGC行業(yè)需求,專門定制了適用于該領(lǐng)域的模型和策略。

舉個(gè)例子,當(dāng)用戶上傳一張圖片時(shí),數(shù)據(jù)萬(wàn)象將自動(dòng)進(jìn)行內(nèi)容審核。如果圖片中存在色情內(nèi)容,審核結(jié)果將會(huì)被標(biāo)記為違規(guī),并同時(shí)提供違規(guī)描述和違規(guī)截圖,方便用戶進(jìn)行修正。

當(dāng)然,如果用戶需要自定義審核規(guī)則,他們可以根據(jù)自己的業(yè)務(wù)需求和風(fēng)險(xiǎn)等級(jí),制定不同的審核策略。這些自定義審核規(guī)則可以設(shè)置審核類型、審核場(chǎng)景、審核閾值等內(nèi)容,從而提高審核效率和準(zhǔn)確性。

數(shù)據(jù)萬(wàn)象的審核機(jī)制猶如一名“安檢員”,負(fù)責(zé)保障用戶和公司的安全和合規(guī),確保上傳的內(nèi)容更加安全可靠。

管理推理結(jié)果

進(jìn)行內(nèi)容管理是必要的,因?yàn)橛扇斯ぶ悄苌傻膬?nèi)容往往存在很多問(wèn)題,例如質(zhì)量不一、真實(shí)性欠缺、版權(quán)問(wèn)題等等,這就需要進(jìn)行有效地管理和控制,以維護(hù)用戶和公司的權(quán)益。

本文以一家互聯(lián)網(wǎng)教育公司為例,該公司提供在線教育服務(wù),需要大量的教育內(nèi)容來(lái)支持其業(yè)務(wù)。為了提升教育內(nèi)容的質(zhì)量和效率,該公司應(yīng)用了人工智能內(nèi)容生成技術(shù),創(chuàng)作了大量的教育文章、視頻和音頻。在這種情況下,內(nèi)容管理十分重要,主要包括以下幾個(gè)方面:

●內(nèi)容改善:通過(guò)修改由人工智能生成的內(nèi)容,以提高其質(zhì)量和可讀性。例如,對(duì)生成的文章進(jìn)行削減、改寫和排版,從而增強(qiáng)文章的可讀性。

●內(nèi)容保護(hù):為保障由AI生成的內(nèi)容的版權(quán)和知識(shí)產(chǎn)權(quán),防止他人侵害和復(fù)制,采用數(shù)字水印等技術(shù)對(duì)教育內(nèi)容進(jìn)行保護(hù)。

●內(nèi)容發(fā)布:利用人工智能生成的內(nèi)容,在各種平臺(tái)和渠道上發(fā)布,以提高內(nèi)容的曝光量和傳播效果。例如,把教育視頻發(fā)布到視頻網(wǎng)站,將教育文章發(fā)布到博客等。

借助內(nèi)容管理,我們可以有效地控制和管理由人工智能生成的教育內(nèi)容,從而提高內(nèi)容的質(zhì)量和可信度。

通過(guò)騰訊云企業(yè)網(wǎng)盤與數(shù)據(jù)萬(wàn)象的結(jié)合,可以實(shí)現(xiàn)云原生和serverless的數(shù)據(jù)處理能力,比如圖像壓縮、版權(quán)保護(hù)、智能標(biāo)簽和以圖搜圖等功能。這種一體化辦公生態(tài)可以輕松與騰訊云已有的辦公體系相接合,從而為用戶帶來(lái)智能化的辦公體驗(yàn)。

該軟件能夠提供與Windows本地操作相同的體驗(yàn),支持協(xié)同辦公、移動(dòng)辦公,同時(shí)也可以在公有云和私有云上進(jìn)行靈活部署,大大提高協(xié)同工作效率。

結(jié)語(yǔ):

騰訊云擁有強(qiáng)大的GPU計(jì)算能力,猶如一座超級(jí)計(jì)算機(jī),可以協(xié)助用戶快速處理包括數(shù)據(jù)和AI任務(wù)在內(nèi)的復(fù)雜工作。高效的存儲(chǔ)解決方案提供快速的數(shù)據(jù)傳輸速度,幫助用戶迅速獲取和傳輸數(shù)據(jù),減少等待時(shí)間。此外,騰訊云還提供了全面的內(nèi)容審查和管理工具,可協(xié)助用戶確保數(shù)據(jù)的安全和規(guī)范,從而使用戶更加信任并放心地使用騰訊云的服務(wù)。在云原生和Serverless的背景下,用戶無(wú)需關(guān)注服務(wù)器的設(shè)置和管理,能夠?qū)W⒂跀?shù)據(jù)和AI處理任務(wù),從而解除很多煩擾。

總的來(lái)說(shuō),騰訊云在AIGC領(lǐng)域的算力、性能、內(nèi)容審核和管理方面都是業(yè)界的各項(xiàng)標(biāo)準(zhǔn),可以為企業(yè)提供更高效、更安全的數(shù)據(jù)和AI處理服務(wù)。

權(quán)知星球,開(kāi)啟你獨(dú)特的知識(shí)星際之旅!點(diǎn)亮你的創(chuàng)造力,閃耀在知識(shí)的星光下,成為知識(shí)傳播的新時(shí)代先鋒!一起探索AI智能領(lǐng)域的奇妙世界,讓創(chuàng)意與智慧在這里綻放!

總結(jié)

以上是生活随笔為你收集整理的如何构建自己的AI助理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。