MaxCompute+ Geabase 大话健康知识图谱取经之路
https://yq.aliyun.com/articles/628991?spm=a2c4e.11163080.searchblog.11.4f492ec1Hzl9la
小嘰導(dǎo)語:正如Google的高級(jí)搜索副總裁Amit Singhal在介紹知識(shí)圖譜時(shí)提到的:“The world is not made of strings , but is made of things.” 大千世界,萬物相聯(lián),借助知識(shí)圖譜,實(shí)現(xiàn)了搜索領(lǐng)域的things, not strings。保險(xiǎn)領(lǐng)域的知識(shí)圖譜之路,何去何從呢?
背景
隨著互聯(lián)網(wǎng)和AI智能的發(fā)展,近年來我國的健康險(xiǎn)業(yè)務(wù)迎來了飛速發(fā)展和變革。健康險(xiǎn),即健康保險(xiǎn),是保險(xiǎn)業(yè)務(wù)的一個(gè)重要分支,有著廣闊的發(fā)展前景,是本財(cái)年保險(xiǎn)領(lǐng)域排兵布陣的重要戰(zhàn)場(chǎng)。健康險(xiǎn)是以被保險(xiǎn)人的身體為保險(xiǎn)標(biāo)的,依據(jù)合同約定當(dāng)被保險(xiǎn)人遭遇疾病或意外傷害時(shí),對(duì)被保險(xiǎn)人的醫(yī)療費(fèi)用或財(cái)產(chǎn)損失進(jìn)行補(bǔ)償或給付的一種保險(xiǎn)。
為了支撐日益劇增的理賠單量的挑戰(zhàn),在不增加客服小二工作量的前提下,健康險(xiǎn)理賠需要做到智能化、自動(dòng)化和低風(fēng)險(xiǎn)化。因此,理賠天平團(tuán)隊(duì)在智能理賠、理賠機(jī)器智能問答和反騙賠等方面做出了相應(yīng)嘗試,而健康險(xiǎn)知識(shí)圖譜是以上各種嘗試所依賴的底層基礎(chǔ)技術(shù)。
本文首先介紹了健康知識(shí)圖譜構(gòu)建流程、整體框架和遇到的問題,然后總結(jié)了健康知識(shí)圖譜在保險(xiǎn)理賠領(lǐng)域應(yīng)用場(chǎng)景和對(duì)應(yīng)的玩法。
健康知識(shí)圖譜和Schema示例
圖1 健康知識(shí)圖譜樣例
健康知識(shí)圖譜樣例如圖1所示,其中存儲(chǔ)著用戶、險(xiǎn)種、疾病、醫(yī)院等各類節(jié)點(diǎn)信息以及它們之間的關(guān)聯(lián)信息。比如,用戶張三投保了門診保險(xiǎn)金,當(dāng)該用戶患慢性肺炎申請(qǐng)理賠時(shí),我們可以根據(jù)圖譜來判斷購買的險(xiǎn)種對(duì)慢性肺炎時(shí)免責(zé)的,進(jìn)行智能拒賠即可。
健康知識(shí)圖譜的具體節(jié)點(diǎn)和邊屬性如下:
健康知識(shí)圖譜整體框架
圖2 健康知識(shí)圖譜整體技術(shù)框架
健康知識(shí)圖譜整體框架如圖2所示,主要由信息源、實(shí)體抽取、數(shù)據(jù)源、更新框架和數(shù)據(jù)存儲(chǔ)和質(zhì)量控制等部分組成,具體如下:
1、信息源
保單類:用戶購買的保單信息,包含用戶、險(xiǎn)種、時(shí)間、保障疾病范圍等信息。
外部網(wǎng)站數(shù)據(jù):通過爬蟲,可以獲取各種渠道的信息,包括醫(yī)院信息、科室信息等。
2、實(shí)體/關(guān)系抽取
信息源有很多形式,包括圖片、文字、語音、視頻等類型,需要從中提取有用的實(shí)體信息和實(shí)體關(guān)系。這部分可以通過機(jī)器學(xué)習(xí)(包括深度學(xué)習(xí)、規(guī)則引擎等)或者人工方式實(shí)現(xiàn)。
3、數(shù)據(jù)源
數(shù)據(jù)源包括各種類型的數(shù)據(jù),包括上傳的文件、ODPS中的用戶畫像信息、關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)、事件或日志等。
4、更新框架
一般通過三種方式將提取的數(shù)據(jù)導(dǎo)入到Geabase中,如下圖所示:
初始化方式,將全量數(shù)據(jù)寫入ODPS表某個(gè)分區(qū)中,全量初始化導(dǎo)入Geabase。
T+1批量更新方式,通過MR Job定時(shí)任務(wù)將更新數(shù)據(jù)寫入最新分區(qū)中,每天批量新增、更新和刪除Geabase中數(shù)據(jù)。
實(shí)時(shí)更新,將更新的數(shù)據(jù)發(fā)送到事件系統(tǒng)或者日志搜集系統(tǒng),然后實(shí)時(shí)消費(fèi),將數(shù)據(jù)更新到Geabase數(shù)據(jù)庫中。
5、數(shù)據(jù)存儲(chǔ)
Geabase為了實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行分布式存儲(chǔ)和計(jì)算,將整個(gè)圖按節(jié)點(diǎn)分割為多個(gè)子圖,每個(gè)子圖存放在同一個(gè)shard中,每個(gè)shard都有自己的備份。Geabase數(shù)據(jù)庫線上存儲(chǔ)的都是有向邊,如果需要存儲(chǔ)無向邊,則需要存儲(chǔ)兩份,即正向和反向都要進(jìn)行存儲(chǔ)。
Geabase在分塊過程中,對(duì)于交界處的邊,Geabase會(huì)同時(shí)生成2條邊,即一條出邊和一條入邊,分別屬于相鄰的兩個(gè)Shard。
6、保障機(jī)制
數(shù)據(jù)抽樣/校驗(yàn):對(duì)更新數(shù)據(jù)(批量或者實(shí)時(shí))進(jìn)行隨機(jī)抽取特定比例的樣本,進(jìn)行校驗(yàn),來驗(yàn)證數(shù)據(jù)導(dǎo)入準(zhǔn)確性。
日志監(jiān)控:對(duì)Geabase更新異常、查詢性能等進(jìn)行實(shí)時(shí)監(jiān)控。
開關(guān):可以利用開關(guān)控制數(shù)據(jù)版本,來決定采用哪個(gè)版本的穩(wěn)定數(shù)據(jù)。另外,對(duì)接口或者流程中的某些環(huán)節(jié)進(jìn)行開關(guān)切換控制。
應(yīng)用場(chǎng)景
智能系統(tǒng)理賠
將險(xiǎn)種和疾病之間的免責(zé)/非免責(zé)關(guān)系,作為理賠因子,加入到系統(tǒng)智能核賠規(guī)則中,完善智能理賠。
比如,用戶張三購買了門診報(bào)銷金險(xiǎn)種,進(jìn)行理賠慢性肺炎時(shí),會(huì)從圖譜中查看門診報(bào)銷金和慢性肺炎的關(guān)系-免責(zé),因此會(huì)在理賠系統(tǒng)審核階段的規(guī)則引擎中直接拒掉,無需進(jìn)入人工審核,實(shí)現(xiàn)快賠快拒。
智能問答
在熱線工作臺(tái)或者機(jī)器人端應(yīng)用時(shí),當(dāng)用戶咨詢某種疾病是否可以理賠或者投保時(shí),可以將圖譜和知識(shí)庫、模版庫相結(jié)合,實(shí)現(xiàn)智能問答,提升小二工作效率或者減少小二工作量。
機(jī)器人端
反騙賠
場(chǎng)景1:
利用知識(shí)推理算法,比如用戶1的周邊用戶(用戶10-用戶14)都是灰度騙賠用戶,則用戶1騙賠的概率就很大,存在騙賠風(fēng)險(xiǎn)。
場(chǎng)景2:
比如用戶1的一代和二代直系親屬都沒有多指癥(屬于先天性遺傳病),那么用戶1患這種先天性疾病的概率就比較小,存在騙賠風(fēng)險(xiǎn)。
另外,還可以通過用戶的報(bào)案位置和醫(yī)院位置就行判斷騙賠的風(fēng)險(xiǎn)。
個(gè)性化推薦
可以根據(jù)張三的一度(甚至可以擴(kuò)展到二度、三度)關(guān)系中,查找和張三用戶畫像比較類似的朋友,將他們購買的險(xiǎn)種推薦給張三。
未來展望
下一步,我們主要從以下幾個(gè)方面提升知識(shí)圖譜價(jià)值:
提高數(shù)據(jù)覆蓋率,存儲(chǔ)更加豐富的海量數(shù)據(jù)。
利用知識(shí)推理算法,挖掘健康圖譜數(shù)據(jù)價(jià)值。
將圖譜進(jìn)行平臺(tái)化,擴(kuò)展到其他領(lǐng)域。
References:
[1] Ehrlinger L, W W. Towards a Definition of Knowledge Graphs[C]// JointProceedings of the Posters and Demos Track of, International Conference onSemantic Systems - Semantics2016 and, International Workshop on Semantic Change& Evolving Semantics. 2016.
[2] Das R, Neelakantan A, Belanger D, et al. Chains of Reasoning over Entities,Relations, and Text using Recurrent Neural Networks[J]. 2016:132-141.
[3] https://docs.antfin.com/geabase/docs
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/9542148.html
總結(jié)
以上是生活随笔為你收集整理的MaxCompute+ Geabase 大话健康知识图谱取经之路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oozie和Azkaban的技术选型和对
- 下一篇: 你所不知道的日志异步落库