没错,继事理图谱后,我们又搞事情了:数地工场自然语言处理语义开放平台正式对外发布!
2020年的鐘聲即將敲響,在這辭舊迎新之際,經過近幾年在Fintech領域中的自然語言處理技術研發和產品迭代積累,數據地平線Datahorizon迎來重大更新,以數據、事件、邏輯的語義toolbox為愿景的數地工場開放平臺V1.0正式對外發布。
數地工場鏈接:http://nlp.zhiwenben.com
歡迎大家前來體驗并提出建議。
01,什么是數地工場
數地工場是由中科院軟件所智慧金融團隊(數據地平線)以近年來在金融領域的技術積累為基礎,基于并行計算系統、分布式爬蟲技術、語義知識庫構建技術、語義分析技術,一站式滿足用戶網頁信息采集、多源異構信息抽取、語義計算、輿情分析、語言資源構建等中文自然語言處理需求的語義開放平臺。
本平臺旨在圍繞數據、事件、邏輯三駕馬車,通過細化和沉淀相關技術,讓用戶能夠基于平臺對外提供API實現問答搜索、輿情分析、文本結構化、事件分析等語義分析應用,也能夠通過與我們合作定制產品特色的自然語言處理文本解決方案。
02,數地工場的語義接口服務
數地工場目前針對中文自然語言處理,圍繞數據采集、信息抽取、語義計算、輿情分析四個模塊,提供不同層次、不同粒度的語義接口服務,目前提供16類接口服務, 大家可以點擊直接體驗。
1)采集類模塊
提供針對特定網頁元數據結構化服務,包括新聞資訊內容的標題、發布時間、正文提取以及網頁表格類提取等接口。
1、 網頁正文解析類API
給定新聞url,識別出該頁面下的正文、發布時間、標題信息。支持Html網頁的標題、正文等十數種重要字段的抽取,以及特殊類型網頁的定制化抽取服務。抽取后臺完成網頁內容的歸一化、結構化處理工作,用戶只需要調用抽取API即可高效完成從指定頁面獲得豐富的結構化信息。
2、 網頁表格解析API
給定包含表格的url,基于表格信息識別方法,識別出該頁面下的表格解析結果。為用戶提供基于頁面的半結構化信息提取服務,抽取后臺完成網頁內容的歸一化、結構化處理工作,用戶只需要調用抽取API即可高效完成從指定頁面獲得豐富的結構化信息。
2)信息抽取類模塊
提供不同粒度層級的信息提取服務,包括關鍵詞提取、摘要提取、新詞發現、實體識別、短語組塊識別、事件三元組、數據三元組以及邏輯三元組提取接口。
1、 關鍵詞提取API
針對給定文本,抽取出該文本的關鍵詞集合,為用戶實現諸如新聞內容關鍵詞自動提取、評論關鍵詞提取等提供基礎服務,助理文本分析。
2、 摘要提取API
針對給定文本,抽取出該文本的摘要片段,為用戶提供自動摘要生成服務,可進一步實現對文本信息的簡化。
3、 主謂賓三元組提取API
針對給定文本,抽取出文本中的主謂賓事件三元組,為用戶提供以事件三元組為核心的文本結構化服務。
4、 邏輯三元組抽取API
針對給定文本,識別出文本中的因果邏輯事件對,為用戶提供事件識別以及邏輯關系的自動識別服務。
5、 實體識別API
針對給定文本,識別出文本中的實體集合。支持人物、公司、日期、地點類實體的識別,后期不斷擴充實體類別,為用戶提供領域實體自動發現和判別服務。
6、 短語組塊識別API
針對給定文本,基于句法分析,識別出文本中短語組塊集合,為用戶提供名詞性短語、動詞性短語、主謂短語等語義更為豐富的組塊服務,可進一步滿足文本分析需求。
7、 數據元組提取API
數據元組提取,基于特定的數據指標提取算法,對數據指標描述非結構化文本進行數據項、數據金額、數據日期等金額類元組等提取,可為泛金融領域知識抽取提供服務。
3)語義計算類模塊
提供針對詞級、句子、文檔級別的語義分析服務,包括相似度計算、概念抽象、語義聯想等接口。
1、 文本共指判定API
針對給定的兩個文本,基于融合知識和深度學習的相似度計算模型,為兩個文本是否可以共指進行判定,可用于信息檢索、問句匹配、知識融合、數據標準化等文本服務。
2、語義聯想API
針對給定一個詞,基于底層積累的語義知識庫(同義詞 、近義詞、反義詞、語法詞、語義詞)以及語義關聯算法,為用戶提供領域詞匯的語義聯想服務,進一步提升搜索、數據增強、推薦以及知識融合等服務。
3、 概念抽象API
針對給定一個詞,基于底層積累形成的概念抽象知識庫以及抽象關聯算法,為用戶提供詞語抽象概念路徑生成和查詢服務,可進一步提升搜索、推薦等服務。
4)輿情分析類模塊
提供針對領域文本的情感極性、主觀性等分析服務,包括情感極性、主觀性計算等接口。
1、情感極性判定API
針對給定的文本,對信息進行情感上的正向、負向及中性進行評價,為有情感分析需求的產品提供該文本的情感傾向服務,在輿情監控、話題監督、口碑分析等商業分析領域有非常重要的應用價值。
2、情感對提取API
針對給定的文本,在情感極性判定的基礎上,進一步提取出情感實體二元對,對具體情感涉及的實體及情感傾向性描述進行識別,為用戶提供更細粒度、更為精準的情感服務。在輿情監控、話題監督、口碑分析等商業分析領域有非常重要的應用價值。
3、實體屬性情感提取API
針對給定的文本,提取出情實體三元對,對具體情感涉及的實體、實體屬性方面以及情感傾向性描述進行識別,為用戶提供更細粒度、更為精準的情感服務。在輿情監控、話題監督、口碑分析等商業分析領域有非常重要的應用價值。
4、主觀性計算API
針對給定的文本,基于主觀性判方法,對文本描述中所體現出來的主觀性(該文章更不確定性,而是表達一種觀點或者心理活動)進行刻畫,為用戶提供文本的主觀性得分計算服務,在輿情監控、話題監督、口碑分析等商業分析領域有非常重要的應用價值。
03,數地工場開放接口的使用方式
我們在平臺網站“文檔與支持”一欄對數據工場中的各個接口提供了文檔與支持,對請求接口和輸入輸出格式都進行了固定,用戶可以點擊查看。
04,數地工場的未來規劃
1、 更多穩定精準的語義接口
接下來,我們將逐步開放更多好用的技術類API,圍繞數據、事件、邏輯三個方向,逐步深化數據提取(面向多源異構數據的結構化提取與標準化),事件提取(領域事件識別、元素識別與建模管理),邏輯推理(事件關系識別、事件體系構建、事件邏輯推理)等技術,同時緊密結合實際業務需求以及探索與應用場景,將數地工場打造成“面向數據、事件、邏輯的語義工具箱”。
2、 數地工場技術分享專題計劃
此外,數地工場技術服務公眾號將緊緊圍繞以Fintech金融文本技術為中心,不定期為大家帶來相關技術和實戰項目分享。具體,我們將從語言資源構建、自然語言處理基礎、知識庫構建、知識圖譜與事理圖譜、文本挖掘、語言計算以及深度等幾個專題進行分享,并適時結合fintech前沿相關技術,歡迎大家關注。
05,結束語
數地工場作為數據地平線的一個重要技術對外開放平臺,將緊緊圍繞以金融Fintech為核心,以自然語言處理和底層技術,朝著數據、事件、邏輯三大技術方向的技術進行深入研發,更多好用、靠譜的API以及技術資源分享將與大家見面,歡迎大家試用!
試用地址http://nlp.zhiwenben.com。
更多商業合作,請咨詢mkt@datahorizon.cn。
如有自然語言處理、[知識圖譜、事理圖譜]、社會計算、語言資源建設等問題或合作,如果對事件知識庫有興趣的落地或者研究,可聯系我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com
4、懂語言者得天下,得語言者分天下,得知識邏輯者,游得天下。
總結
以上是生活随笔為你收集整理的没错,继事理图谱后,我们又搞事情了:数地工场自然语言处理语义开放平台正式对外发布!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【HTML/CSS】CSS权重、继承及引
- 下一篇: 【TensorFlow】通过两个简单的例