日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 运维知识 > 数据库 >内容正文

数据库

ACL 2021|CHASE: 首个跨领域多轮Text2SQL中文数据集

發(fā)布時(shí)間:2024/10/8 数据库 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2021|CHASE: 首个跨领域多轮Text2SQL中文数据集 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者?|?徐葉琛

單位?|?字節(jié)跳動(dòng)

研究方向?|?NLP語(yǔ)義理解、問(wèn)答系統(tǒng)

自然語(yǔ)言處理語(yǔ)義解析子任務(wù) Text2SQL 旨在將用戶的自然語(yǔ)言轉(zhuǎn)換為 SQL 序列,繼而完成數(shù)據(jù)庫(kù)查詢工作,打破了人與結(jié)構(gòu)化數(shù)據(jù)庫(kù)之間的壁壘,具有廣泛的研究&應(yīng)用價(jià)值。

?

近日,微軟亞洲研究院聯(lián)合北航和西安交大,發(fā)布了全新跨領(lǐng)域多輪交互 Text2SQL 中文數(shù)據(jù)集 CHASE,相關(guān)論文已被 ACL 2021 接收。

?

本文從現(xiàn)有 Text2SQL 數(shù)據(jù)集、CHASE 主要特點(diǎn)、解決方案測(cè)評(píng)等角度來(lái)講解這篇頂會(huì)論文。隨同數(shù)據(jù)集發(fā)布的還有同名公開(kāi)榜單。

?

論文標(biāo)題:

CHASE: A Large-Scale and Pragmatic Chinese Dataset for Cross-Database Context-Dependent Text-to-SQL

論文鏈接:

https://xjtu-intsoft.github.io/chase/

Text2SQL任務(wù)和數(shù)據(jù)集

典型的 Text2SQL 任務(wù)是給定一張表格 ,用戶輸入自然語(yǔ)言問(wèn)句 ,模型自動(dòng)生成相應(yīng)SQL序列 ,相當(dāng)于對(duì)文本和結(jié)構(gòu)化表格同時(shí)建模:。

▲ 任務(wù)示例

?

自從上世紀(jì) 90 年代提出該任務(wù)以來(lái),Text2SQL 在 NLP 和數(shù)據(jù)庫(kù)社區(qū)吸引了眾多科研人員的關(guān)注,學(xué)術(shù)界和工業(yè)界相繼發(fā)布了一些大規(guī)模數(shù)據(jù)集。從單領(lǐng)域、單輪到跨領(lǐng)域、多輪,任務(wù)難度逐漸提升。

▲ 現(xiàn)有的Text2SQL數(shù)據(jù)集

?

在實(shí)際場(chǎng)景,用戶往往會(huì)圍繞一個(gè)感興趣的問(wèn)題持續(xù)發(fā)問(wèn),直到從數(shù)據(jù)庫(kù)中獲得想要的信息。而以往的 Text2SQL 多輪數(shù)據(jù)集沒(méi)有中文,僅有的英文數(shù)據(jù)集? Sparc [1] 和 CoSQL?[2] 又包含了很多上下文獨(dú)立的樣本,且部分?jǐn)?shù)據(jù)存在標(biāo)注混亂。

CHASE簡(jiǎn)介

鑒于以上不足,微軟亞洲研究院聯(lián)合北航和西安交大,發(fā)布了最新的 Text2SQL 數(shù)據(jù)集 CHASE,它有以下特點(diǎn):

?

1)跨領(lǐng)域,包含 280 個(gè)不同領(lǐng)域的數(shù)據(jù)庫(kù),且 train/dev/test 不重復(fù);

?

2)大規(guī)模,包含 5459 個(gè)多輪問(wèn)題組成的列表,一共 17940 個(gè)<query, SQL>二元組;

?

3)多輪交互,同一個(gè)列表的問(wèn)題之間會(huì)有實(shí)體省略等交互現(xiàn)象,類似于 SParc 和 CoSQL;

?

4)中文數(shù)據(jù)集,問(wèn)題和數(shù)據(jù)庫(kù)表名、列名、其中的元素都是中文,相比之下,CSpider 只是將表名、列名字段翻譯為中文。

?

5)標(biāo)注信息豐富,除了 query 和 SQL,CHASE 額外標(biāo)注了(1)上下文依賴關(guān)系,包括 Coreference 共指、Ellipsis 省略;(2)模式鏈接關(guān)系,對(duì)于 query 中提到的表名和列名信息進(jìn)行了標(biāo)記。

?

下圖是 CHASE 中問(wèn)題列表的實(shí)際例子。

用戶的第一個(gè)輸入“哪所大學(xué)培養(yǎng)了最多 MVP 球員”屬于獨(dú)立問(wèn)題,沒(méi)有可參考的上下文;緊接著第二個(gè)問(wèn)題“狀元呢”直接省略了主語(yǔ)“大學(xué)”,完整的問(wèn)題應(yīng)該是“哪所大學(xué)培養(yǎng)了最多狀元”,模型需要結(jié)合歷史信息才能生成正確 SQL。第三個(gè)問(wèn)題同樣類似。

完整的 CHASE 數(shù)據(jù)集由 CHASE-C 和 CHASE-T 兩部分組成。

CHASE-C

CHASE-C 收集了百度去年發(fā)布的 DuSQL [3] 單輪中文數(shù)據(jù)集中的 120 個(gè)高質(zhì)量數(shù)據(jù)庫(kù),包含了運(yùn)動(dòng)、教育、娛樂(lè)等 60 個(gè)子領(lǐng)域;并修復(fù)了其中的一些錯(cuò)誤(例如重復(fù)列、缺少的外鍵約束等等)。

?

隨后,作者安排了 12 位中國(guó)大學(xué)生從頭開(kāi)始標(biāo)注具有上下文依賴的問(wèn)題列表,以及上文介紹的兩種依賴關(guān)系,

CHASE-T

CHASE-T 翻譯自 Sparc 數(shù)據(jù)集公開(kāi)的 train/dev 部分。作者讓參與翻譯的學(xué)生修改那些與上下或主題無(wú)關(guān)的 query 和 SQL,使問(wèn)題序列更加連貫和自然。

在構(gòu)建過(guò)程中,CHASE-T 發(fā)現(xiàn)并修復(fù)了 SParC 中 150 個(gè)不正確的 SQL 查詢,并調(diào)整了 1470 個(gè) SQL 查詢,使最終的問(wèn)題序列更加連貫。

下表統(tǒng)計(jì)了 CHASE 和其他多輪 Text2SQL 數(shù)據(jù)集的對(duì)比信息,可以發(fā)現(xiàn) CHASE 規(guī)模最大,且標(biāo)注信息最豐富。

?

現(xiàn)有 SOTA 模型效果評(píng)測(cè)

在實(shí)驗(yàn)部分,作者選取了 IGSQL [4]、RAT-SQL [5]、EditSQL [6] 3種當(dāng)前? Text2SQL 領(lǐng)域的 SOTA 方法進(jìn)行對(duì)比,采用問(wèn)題匹配度 Question Match(QM) 和交互匹配度 Interaction Match(IM)兩種評(píng)測(cè)指標(biāo)。

?

最終得到了 4 個(gè)觀察結(jié)論:

?

1)當(dāng)前 CHASE 上最優(yōu)模型 IGSQL 的 QM 僅為40.4%,相比之下 Sparc 和 CoSQL 上的最高 QM 分別是 60.1% 和 50.8%,表明 CHASE 對(duì)未來(lái)的研究提出了重大挑戰(zhàn);

?

2)SOTA 方法在 CHASE-C 上的 QM 和 IM 結(jié)果均低于 CHASE-T,證明從頭創(chuàng)建的問(wèn)題序列更具挑戰(zhàn)性;

?

3)SOTA 方法在 CHASE-T 的表現(xiàn)要比 Sparc 差,原因來(lái)自兩方面:(1)CHASE 修復(fù)了 Sparc 中的一些 badcase,使得前者更具挑戰(zhàn)性;(2)現(xiàn)有方法只針對(duì)英文,在處理中文輸入時(shí)可能表現(xiàn)的不那么穩(wěn)定;

?

4)盡管 RAT-SQL 在 Sparc 和 CoSQL 上達(dá)到了 SOTA 性能,卻在 CHASE 上遠(yuǎn)落后于 EditSQL 和 IGSQL,原因在于 RAT-SQL 采用了一種基于字符串匹配的方法來(lái)尋找數(shù)據(jù)庫(kù)模式和 query 提及之間的聯(lián)系;然而,當(dāng)許多模式在問(wèn)題中沒(méi)有被準(zhǔn)確提及時(shí)(例如涉及語(yǔ)義推理),這種方法就會(huì)陷入困境;CHASE 中的模式鏈接標(biāo)注信息為未來(lái)解決這一問(wèn)題提供了幫助。

▲ 實(shí)驗(yàn)對(duì)比

總結(jié)

CHASE 是最新的 Text2SQL 高質(zhì)量多輪交互數(shù)據(jù)集,通過(guò)人工標(biāo)注和 review 豐富了問(wèn)題的多樣性和凝聚力,貼近實(shí)際應(yīng)用場(chǎng)景的同時(shí)增大了 Text2SQL 任務(wù)的難度。

?

現(xiàn)有的 SOTA 方法在 CHASE 公開(kāi)榜單上最高 QM 準(zhǔn)確率只有 43.7%,還有巨大的提升空間,對(duì)語(yǔ)義理解感興趣的同學(xué)不妨來(lái)試試刷榜!

?

最后,我在 Github 上整理了一個(gè) Text2SQL 資源倉(cāng)庫(kù),包含數(shù)據(jù)集、解決方案、paper、落定應(yīng)用等信息,可以幫助你快速了解 Text2SQL 領(lǐng)域的研究現(xiàn)狀,鏈接:

https://github.com/yechens/NL2SQL

?

參考文獻(xiàn)

[1] Tao Yu, Rui Zhang, et al. 2019b. SParC: Cross-domain semantic parsing in context. In Proceedings of the 57th Annual Meeting of the ACL, pages 4511–4523.

[2] Tao Yu, Rui Zhang, et al. 2019a. CoSQL: A conversational text-to-SQL challenge towards crossdomain natural language interfaces to databases. In Proceedings of the 2019 Conference on EMNLP and the 9th IJCNLP, pages 1962–1979.

[3] Lijie Wang, Ao Zhang, et al. 2020c. DuSQL: A large-scale and pragmatic Chinese text-to-SQL dataset. In Proceedings of the 2020 Conference on EMNLP, pages 6923–6935. Association for Computational Linguistics.

[4] Yitao Cai and Xiaojun Wan. 2020. IGSQL: Database schema interaction graph based neural model for context-dependent text-to-SQL generation. In Proceedings of the 2020 Conference on EMNLP) pages 6903–6912.

[5] Bailin Wang, Richard Shin, et al. 2020a. RATSQL: Relation-aware schema encoding and linking for text-to-SQL parsers. In Proceedings of the 58th Annual Meeting of the ACL, pages 7567–7578.

[6] Rui Zhang, Tao Yu, et al. 2019. Editing-based SQL query generation for cross-domain context-dependent questions. In Proceedings of the 2019 Conference on EMNLP and the 9th IJCNLP, pages 5338–5349.

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

?????稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

?????投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的ACL 2021|CHASE: 首个跨领域多轮Text2SQL中文数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。