合肥工业大学第六届“互联网+”大学生创新创业大赛项目计划书:AI云学习 —— 一款基于Spark构建知识图谱的人工智能学习工具
項?目?名?稱: AI云學習 —— 一款基于Spark構建知識圖譜的人工智能學習工具
項?目?類?型: “互聯網+”信息技術服務業
項?目?負?責?人: 文華
高?????校: 合肥工業大學(宣城校區)
院?????系: 計算機與信息系(宣城校區)
申?報?日?期: 2020年7月19日
文章目錄
- 1 產品概述
- 1.1 研發背景
- 1.2 產品概況
- 1.3 市場優勢
- 1.4 市場預期
- 1.5 銷售預期
- 1.6 融資方式
- 1.1 研發背景
- 2 產品服務與創意
- 2.1 產品項目介紹
- 2.1.1 產品名稱
- 2.1.2 產品logo
- 2.1.3 產品研發團隊
- 2.1.4 產品系統組成
- 2.1.5 產品功能說明
- 2.1.6 產品的技術領先性
- 2.1.1 產品名稱
- 2.2 產品系統總體技術方案
- 2.2.1 數據來源
- 2.2.2 Spark與Jiagu模型
- 2.2.3 知識圖譜的可視化
- 2.2.1 數據來源
- 2.3 產品硬件配置、軟件截圖與說明
- 2.3.1 產品硬件配置
- 2.3.2 軟件截圖
- 2.3.1 產品硬件配置
- 2.4 產品升級計劃
- 2.1 產品項目介紹
- 3 市場分析
- 3.1 市場環境分析
- 3.1.1 知識圖譜行業PEST分析
- 3.1.2 知識圖譜行業發展現狀分析
- 3.1.3 行業規模分析
- 3.1.4 中國對知識圖譜行業政策分析
- 3.1.1 知識圖譜行業PEST分析
- 3.2 目標市場定位
- 3.3 市場容量估算與預測
- 3.1 市場環境分析
- 4 現狀與規劃
- 4.1 人工智能發展現狀
- 4.2 知識圖譜發展現狀
- 4.2.1 知識圖譜實現功能
- 4.2.2 知識圖譜瓶頸
- 4.2.1 知識圖譜實現功能
- 4.3 產品現狀
- 4.3.1 產品成本
- 4.3.2 產品功能
- 4.3.3 產品價值
- 4.3.1 產品成本
- 4.4 產品規劃
- 4.4.1 擴大應用范圍
- 4.4.2 開發新的業務
- 4.4.1 擴大應用范圍
- 4.1 人工智能發展現狀
- 5 競爭力分析
- 5.1 波特五力模型
- 5.1.1 現有競爭者
- 5.1.2 潛在進入者
- 5.1.3 替代產品
- 5.1.4 供應商討價能力
- 5.1.5 顧客討價能力
- 5.1.6 知識圖譜領域環境總結
- 5.1.1 現有競爭者
- 5.2 SWOT分析
- 5.2.1 內部環境分析:優勢、劣勢及對策
- 5.2.2 外部環境分析:機遇與威脅
- 5.2.1 內部環境分析:優勢、劣勢及對策
- 5.1 波特五力模型
- 6 組織與人員
- 6.1 團隊目標
- 6.2 組織結構及各組職責分配
- 6.3 主要成員
- 6.3.1 前期主要成員
- 6.3.2 后期主要成員
- 6.3.3 指導老師
- 6.3.4 團隊概況
- 6.3.5 團隊管理
- 6.3.1 前期主要成員
- 6.4 團隊戰略
- 6.4.1 團隊定位
- 6.4.2 團隊愿景與使命
- 6.4.3 團隊理念
- 6.4.1 團隊定位
- 6.1 團隊目標
- 7 財務分析
- 7.1 創業資金來源
- 7.2 資金使用分析
- 7.2.1 運營費用預期(第一年)
- 7.2.2 生產流動資金預期
- 7.2.1 運營費用預期(第一年)
- 7.3 三年內銷售盈利預測
- 7.1 創業資金來源
- 8 風險與對策
- 8.1 風險分析
- 8.1.1 市場競爭風險
- 8.1.2 經營管理風險
- 8.1.3 技術風險
- 8.1.4 財務風險
- 8.1.1 市場競爭風險
- 8.2 風險規避對策
- 8.2.1 市場競爭風險對策
- 8.2.2 經營管理風險對策
- 8.2.3 技術風險對策
- 8.2.4 財務風險對策
- 8.2.1 市場競爭風險對策
- 8.1 風險分析
- 參考文獻
- 附錄
1 產品概述
1.1 研發背景
??隨著Web技術飛躍式發展,互聯網先后經歷了三個時代,它們分別具有不同的特征:文檔互聯的“Web 1.0”時代,數據互聯為特征的“Web 2.0”時代以及當下正在發展的知識互聯的嶄新“Web 3.0”時代。知識互聯為人們的學習與交流提供了極大便利,人類的知識交互達到了歷史的新高峰。然而,互聯網上的知識來源復雜、良莠不一,零散混亂、體系松散,尤其是在大數據的時代背景下,這給內容的篩選、組織與評價帶來了極大挑戰。知識圖譜(Knowledge Graph)是人工智能(Artificial Intelligence,簡稱AI)領域一項重要的技術分支,具有強大的語義處理能力與開放互聯能力。值得注意的是,目前國內尚無針對人工智能這一領域的知識圖譜工具。人工智能正處于快速發展階段,了解、學習、掌握有關知識與技術是學生、工程師、科研人員所面臨的一大挑戰,優秀的知識架構可以幫助學習者達到事半功倍的效果。
??目前,已經有許多大型知識圖譜被構建出來,如DBpedia、Freebase等,然而,當前的知識圖譜工具普遍存在以下問題:1)通用知識圖譜工具涉面較廣,但知識冗余混亂、組織零散、系統性差,不利于用戶的專業學習;2)垂直知識圖譜工具種類少,成熟的應用僅限于某些領域,在一些具有較大應用需求的領域未獲重視,前景廣闊。
??綜上所述,本項目的目的是構建一個面向學習者尤其是本科生的人工智能領域的垂直知識圖譜,意義在于通過Spark完成人工智能知識的重整,實現了一個學習者尤其是本科生適用的知識圖譜工具。人工智能領域繁多,為消減技術流程的復雜度,我們選取機器學習(Machine Learning,ML)、自然語言處理(Natural Language Processing,NLP)與機器視覺(Machine Vision,MV)等三個領域作為代表。構建知識圖譜的一般技術流程如圖1.1.1所示。
圖1.1.1 知識圖譜構建流程
1.2 產品概況
??本產品為“AI 云學習 —— 一款基于 Spark 構建知識圖譜的人工智能學習工具”,其基于Spark大數據平臺并充分利用了數據爬蟲獲取、實體識別、關系抽取、可視化分析等技術,構建了一個人工智能領域的垂直知識圖譜,以期為知識服務系統提供知識的高效檢索、組織和管理,為知識間關聯關系的發現奠定基礎。該圖譜可提供力導向布局圖作為可視化界面展示百科知識的直觀方式,并且具有響應快、規模可擴展、跨平臺等優點。本產品包括優化的Python爬蟲元數據獲取系統、知識圖譜構建系統、手機APP(Android與iOS端)、輕量級應用服務器。用戶可以通過本產品解決在特定應用場景下的知識檢索問題,高效、完整、準確地學習相關知識,如:①準確、快速地檢索“人工智能”相關術語并提供解釋,且給出術語的聯想結果,利于用戶進一步學習;②突出學科在行業中的發展形勢與學科熱門應用領域,給學生就業、擇業提供參考;③形象化地展示“人工智能”知識的脈絡、歷史沿革與發展趨勢,為學生復習、深入學習提供參考。
??目前本產品已經完成了所有的開發、調試與部署,正在通過多渠道宣傳本產品,并向各方面爭取投資,下一步的工作將在收集充分的用戶反饋與籌集足夠經費的基礎上,對知識抽取算法進行優化,同時對產品服務器進行升級。本產品獲得過2019年iCAN國際創新創業大賽安徽賽區的省級二等獎,以及經學校“大學生創新創業大賽”專家組審核通過,可見本產品擁有扎實的技術積淀。
??我們學思結合,敢為人先,勇于挑戰,更有充足信心將所學專業知識轉化為實際成果,也因此我們堅信:隨著大數據與人工智能技術的蓬勃發展,傳統的學習方式將被會逐漸替代甚至顛覆,取而代之的是更為現代化、效率更高、可重用性更強、傳播更快的模式,而本產品的推出正順應了這一時代背景,在行業未來的發展中必將大放異彩。
1.3 市場優勢
??①本團隊產品順應技術發展潮流,在同領域的產品屬于首創,具有絕對的市場獨占率與技術優勢;②在互聯網+同大數據與人工智能日新月異的時代背景下,我們團隊以產品和服務為載體,技術創新與社會需要的融合臻于化境,搶占市場,獲得利潤;③本團體具有明晰的研發、宣傳、營銷目標,集中團隊優勢,搶占市場空缺;④本團隊的產品有望成為首款面向人工智能學習者的知識圖譜輔助學習工具;⑤本團隊產品已經獲得兩項省級獎項,得到了審評人員的高度認可,具有巨大的發展空間。
1.4 市場預期
??2020年是知識圖譜行業發展過程中非常關鍵的一年,首先,從外部宏觀環境來講,轉變經濟增長方式,嚴格的節能減排對知識圖譜行業的發展都產生了深刻的影響。知識圖譜行業需求持續火熱,資本利好知識圖譜領域,行業發展長期向好。2019年居民人均可支配收入28228元,同比實際增長6.5%,居民消費水平的提高為知識圖譜行業市場需求提供經濟基礎。傳統知識圖譜行業市場門檻低、缺乏統一行業標準,服務過程沒有專業的監督等問題影響行業發展。互聯網與知識圖譜的結合,縮減中間環節,為用戶提供高性價比的服務。90后、00后等各類人群,逐步成為知識圖譜行業的消費主力。通過對市場環境的分析,結合產品本身特征和目標市場定位,我們估計本團隊產品在同行業產品中相對壟斷,市場地位和市場份額可達50%以上。本團隊將在提供整體解決方案的基礎上,通過先進的技術和完善的服務提高用戶對產品的認可度,培養客戶粘性。
1.5 銷售預期
??第一年:團隊產品運營初期,預計將會服務用戶1000000人次。全年實現毛利潤50萬元,力爭實現凈利潤32萬元。
??第二年:團隊產品運營初期,預計將會服務用戶2000000人次。全年實現毛利潤90萬元,力爭實現凈利潤80萬元。
??第三年:團隊產品更新換代,服務優化,預計將會服務用戶4000000人次。全年實現毛利潤130萬元,全年力爭實現凈利潤115萬元。
1.6 融資方式
??本團隊運營資金來源方式主要為:創業貸款。
2 產品服務與創意
2.1 產品項目介紹
2.1.1 產品名稱
??AI云學習 —— 一款基于Spark構建知識圖譜的人工智能學習工具。
2.1.2 產品logo
圖 2.1.2.1 產品logo
2.1.3 產品研發團隊
??牛頭沖八仙下海創業團隊。
2.1.4 產品系統組成
??(1)基于PathFinder算法的主從分布式Python爬蟲元數據獲取子系統。
??(2)基于Spark平臺的元數據預處理子系統。
??(3)基于Jiagu模型的知識關系抽取子系統。
??(4)基于PHP與MySQL的關鍵詞檢索子系統。
??(5)基于amChart 4的圖譜渲染與展示子系統。
??(6)云端服務器。
??(7)Web應用。
??(8)手機APP。
2.1.5 產品功能說明
??(1)對用戶輸入的不在數據庫中的關鍵詞進行預檢索處理,即以當前關鍵詞作為主從分布式Python爬蟲元數據獲取子系統的輸入來獲取相應的元數據。
??(2)對分布式Python爬蟲元數據獲取子系統所得到的元數據進行文檔去重、清洗、網頁標簽過濾、敏感詞篩除與文本自組織標記。
??(3)對Spark平臺的元數據預處理子系統所得到的預處理數據進行自然語言模型訓練并提取相應的知識關系。
??(4)對Jiagu模型的知識關系抽取子系統所生成的三元組數據進行格式重調、MySQL存儲并給出用戶使用與自定義知識圖譜所需的“增刪查改”功能。
??(5)對PHP與MySQL的關鍵詞檢索子系統所返回的json格式數據進行力導向圖渲染與展示。
??(6)云服務器是部署知識圖譜后端的主要平臺,負責對用戶數據的檢索、元數據獲取、文本預處理、知識關系抽取與知識圖譜展示等一系列功能。
??(7)Web應用是供PC端與手機端用戶實時檢索所需知識圖譜的前端平臺,免去了安裝專門應用的煩瑣操作。
??(8)手機APP分為Android與iOS版本,分別供Android用戶和iOS用戶安裝使用,手機APP增強用戶使用知識圖譜的穩定性與安全性。
2.1.6 產品的技術領先性
??(1)產品核心技術:
??借助主從分布式Python爬蟲實現PathFinder算法。
??基于大數據處理平臺Spark的文本預處理系統。
??基于國產開源自然語言工具Jiagu實現高效、快捷的知識關系抽取。
??基于數據倉庫平臺hive實現微秒級的數據庫管理操作。
??基于amChart 4完成藝術級的圖譜渲染效果與知識節點展示。
??云服務器實現了對用戶輸入數據的全自動元數據流式獲取、文本預處理、知識抽取、數據庫存儲與圖譜節點反饋。
??Android、iOS與Web應用提供了多種知識圖譜訪問操作。
??(2)產品技術、應用與運營模式創新:
??①技術創新
??a. 借助主從分布式Python爬蟲實現PathFinder算法
??本項目擬構建人工智能知識的知識圖譜,但目前并不存在有關內容的開源數據庫或信息源,因此,利用分布式爬蟲獲取內容是唯一有效的方法。然而,傳統的分布式爬蟲雖然可以有選擇地訪問網頁與相關鏈接并獲取所需信息,但獲取內容仍含有一定的無價值數據。在大數據環境下,分布式架構的分布式爬蟲比單機多核的串行爬蟲具有更高的效率與更新速度。爬取相關度更高的內容也是一個值得考慮的問題,為了解決這個問題,我們借助主從分布式爬蟲實現PathFinder算法,根據相關度閾值獲取內容。
??理論計算與實驗數據證明,本項目采用的Python爬蟲方法在顯著地提高了數據獲取效率的同時,還極大地保證了數據的相關度。
??b. 基于大數據處理平臺Spark的文本預處理系統
??文本預處理是將文本表示成一組特征項。將每個詞作為文本的特征項是目前常用的處理方法,針對本項目的文本特征項主要是專有名詞與術語,本項目在Spark平臺下利用Word分詞,實現分布式工作。Word分詞是用Java實現的,實現了多種分詞算法,并利用ngram模型消除歧義,能有效對數量詞、專有名詞與人名進行識別。分詞所得到詞語組,主要用于信息聯想,也就是在構建完成的知識圖譜中檢索與給定詞語有關聯的三元組。
??c. 基于數據倉庫平臺hive實現微秒級的數據庫管理操作
??hive是一個基于Hadoop的數據倉庫平臺,通過hive我們可以快速地對存儲在數據庫中數據進行抽取、加載與轉換(Extract,Transform,Load,ETL)等操作。
??②應用創新
??a. 基于國產開源自然語言工具Jiagu實現高效、快捷的知識關系抽取
??Jiagu模型是一個國產的開源自然語言處理工具,以BiLSTM等模型為基礎,使用大規模語料訓練而成。Jiagu模型提供中文分詞、詞性標注、命名實體識別、情感分析、知識圖譜關系抽取、關鍵詞抽取、文本摘要、新詞發現、情感分析、文本聚類等常用自然語言處理功能,API豐富,且操作便捷、穩定性高。本文選擇Jiagu模型作為知識抽取的工具,取得了十分理想的效果。
??b. 基于amChart 4完成藝術級的圖譜渲染效果與知識節點展示
??amCharts 4是一個基于TypeScript開源的可視化框架,具有圖表種類豐富、圖形效果炫麗、動畫或靜態呈現、與平臺無關等特點,適用于各個行業的可視化需求場景,因此本文將其作為知識圖譜的可視化工具。本文使用HTML/CSS/JavaScript設計頁面元素及基本布局,并采用力導向圖作為圖譜的呈現形式。當用戶在搜索框鍵入查詢關鍵詞時,通過GET請求關鍵字,后臺通過PHP查詢數據庫并返回請求的數據。前端得到請求的數據后,通過JavaScript進行預處理并借助amCharts進行可視化展示。
??c. 云服務器實現了對用戶輸入數據的全自動元數據流式獲取、文本預處理、知識抽取、數據庫存儲與圖譜節點反饋
??為了提高產品的可用性,本項目所設計的知識圖譜除了提供對本地存儲的知識節點查詢外,還能以用戶輸入的關鍵詞進行圖譜拓展,概而言之就是:當輸入關鍵詞不匹配數據庫內的任何結果時,將其作為Python爬蟲的輸入關鍵字爬取相關文本,并將所得文本按照既定的技術流程操作,得到與新關鍵詞有關的知識圖譜。這一方式使知識圖譜的進一步拓展成為了可能。
??③模式創新
??a. Android、iOS與Web應用提供了多種知識圖譜訪問操作
??本產品提供了多種操作終端,最大化地覆蓋了各個平臺的用戶,以期為產品盈利帶來更為廣闊的使用人群,這增大了產品的被動測試與BUG反饋案例,為后期產品優化提供了絕佳的參考。
??b. 產品提供免費與付費雙重個性化服務
??本產品面向廣大用戶提供日均一定數量的免費知識圖譜檢索服務的同時,設置了付費檢索服務:付費用戶憑支付一定量的費用享受次數更多、自定義操作更完善的知識節點檢索服務。付費服務是本產品盈利的重要來源。
2.2 產品系統總體技術方案
??如1.1節所述,知識圖譜構建主要分為三個步驟:知識抽取、知識融合與知識檢索,下面就每個方面進行詳細介紹。
??(一)數據類型
??構建知識圖譜的元數據有三種常見的類型:結構化數據、半結構化數據與非結構化數據。
??結構化的數據是指可以使用關系型數據庫表示和存儲,表現為二維形式的數據。一般特點是:數據以行為單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。常見的結構化數據為數據庫。
??半結構化數據是結構化數據的一種形式,它并不符合關系型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層。因此,它也被稱為自描述的結構。對于半結構化數據,屬于同一類實體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序并不重要。常見的半結構數據有XML和JSON格式。
??非結構化數據是沒有固定結構的數據。各種文檔、圖片、視頻/音頻等都屬于非結構化數據。對于這類數據,我們一般直接整體進行存儲,而且一般存儲為二進制的數據格式。
??(二)知識抽取
??知識抽取是指把蘊含于信息源中的知識經過識別、理解、篩選、歸納等過程抽取出來,存儲形成知識元庫。知識抽取是構建知識圖譜的首個關鍵步驟與基礎,直接影響了后續工作的成效與最終構建所得圖譜的質量。知識圖譜構建中知識抽取分為:實體抽取、關系抽取與屬性抽取。
??實體抽取又稱命名實體識別,包括實體的檢測(find):識別命名實體的文本范圍,實體的分類(classify):分類為預定義的類別,學術上所涉及一般包含三大類,實體類、時間類、數字類和7個小類,如人、地名、時間、組織、日期、貨幣、百分比等。
??關系抽取主要負責從文本中識別出實體,抽取實體間的語義關系,在知識圖譜構建中一般以三元組的形式來表征。
??屬性抽取的任務為識別實體的屬性名與識別實體的屬性值,而屬性值結構一般是不確定的。
??(三)知識融合
??知識融合,即合并兩個知識圖譜(實體及其對應關系),其基本問題是研究怎樣將來自多個來源的關于同一個實體或概念的描述信息融合起來。由于知識圖譜中的知識來源廣泛,存在知識質量良莠不齊、來自不同數據源的知識重復、知識間的關聯不夠明確等問題,所以需要進行知識的融合。知識融合是高層次的知識組織,使來自不同的知識源的知識在同一框架規范下進行異構數據整合、消歧、加工、推理驗證、更新等步驟,達到數據、信息、方法、經驗以及人的思想的融合,形成高質量的知識庫。
??經過上述步驟后,方能得到可供進行知識檢索的有效知識圖譜。接下來詳細介紹本產品構建知識圖譜的技術流程。
2.2.1 數據來源
??①爬取工具的選擇
??本文選擇CSDN與博客園作為主要的元數據(Metadata)獲取平臺,因其主要數據采用網頁來展現,所以本文選擇Python作為爬取工具。Python不但用于抓取網頁文檔的接口簡潔,同時其訪問網頁文檔的API也相當完整。
??值得一提的是,抓取網頁有時需將爬蟲(Crawler)程序偽裝成普通的瀏覽器。因為許多網站都采取了防爬措施,單純的爬取操作極容易被網站檢測出來并封殺。Python提供了許多魯棒的第三方包如requests、mechanize、selenium,可以幫助爬蟲輕松地越過網站的防爬策略。
??在抓取了網頁之后,仍需進一步的處理,如過濾html標簽,提取文本等,而python的beautifulsoap庫等使編寫非常簡潔的代碼即可完成大部分文檔的處理成為可能。
??②提高爬取效率的方法
??傳統的網絡爬蟲是運行在本地,稍優化的策略是采取“單機多核”的方式。為了更有效地解決爬取效率過低的問題,同時結合實際的實驗條件,本文采用主從分布式爬蟲(Master-Slave Distributed Crawler)[1],并在其上實現PathFinder算法,據所列關鍵詞的相關度按閾值排序獲取特定內容。
??本項目將一臺阿里云服務器作為master服務器,用于分發所需爬取內容的URL,同時維護存儲在redis中待爬取URL的列表。由三臺本地的筆記本電腦組成slave服務器組,用于對各自從master服務器所獲得的URL執行網頁爬取任務;若slave在爬取過程中遇到新的URL,一律將其返回master服務器由master解析處理,slave服務器間不進行通信。本文所用master服務器與slave服務器組的性能配置如表2.2.1.1所示,主從分布式爬蟲的邏輯結構如圖2.2.1.1所示,爬蟲的類圖結構如圖2.2.1.2所示。
| master | Intel(R) Xeon(R) CPU E5-2682 v4 @ 2.50GHz | 2 | 40 | 1 |
| slave 1 | Intel(R) Core(TM) i5-8300H CPU @ 2.30GHz | 16 | 128(SSD) + 1024 | 4 |
| slave 2 | Intel(R) Core(TM) i7-8550U CPU @ 1.80GHz | 16 | 128(SSD) + 1024 | 4 |
| slave 3 | Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz | 16 | 128(SSD) + 1024 | 6 |
圖 2.2.1.1 主從式分布爬蟲邏輯結構
圖 2.2.1.2 爬蟲程序的類圖結構
??此外,為了防止網站服務器鎖定爬蟲的IP,本文所使用的爬蟲程序對爬取頻率進行了限制,以及使用代理IP池。
2.2.2 Spark與Jiagu模型
??①Spark與hive平臺
??Spark[2]是基于內存計算的大數據并行計算框架,因為它基于內存計算,所以提高了在大數據環境下數據處理的實時性,同時保證了高容錯性和高可伸縮性,允許用戶將 Spark部署在大量廉價硬件之上,形成集群。hive[3]是一個基于Hadoop的數據倉庫平臺,通過hive我們可以快速地對存儲在數據庫中數據進行抽取、加載與轉換(Extract,Transform,Load,ETL)等操作。hive定義了一個類似于SQL的查詢語言:HQL,能夠將用戶編寫的查詢語句轉化為相應的MapReduce程序并基于Hadoop執行。需要注意的是,hive本身并不存儲數據,因而用戶需要選擇一個傳統的數據庫進行數據存儲,基于可操作性與成本等角度考慮,本項目采用MySQL。
??本項目將使用Spark平臺的相關工具進行數據預處理。
??②數據預處理
??元數據雜源異質,散亂冗余,并且由于網頁文本本身的結構導致數據中存在大量標簽,無法直接用于下一步操作。因此本文借助Spark平臺快速的數據處理能力及hive對數據庫高效的ETL操作,對文本進行預處理。
??首先,在spark-shell上將數據成功加載到hive中,為后續存取提供了數據來源。其次,在hive上創建了數據庫,在spark-shell上依次將爬蟲爬取的json文件導入成表。而后,在IDEA上編程對數據去重,這里主要使用了Spark的幾個API,如:duplicate、filter、regexp_replace、regexp_extract等。完成數據的存儲、去重和標簽過濾后,借助于github上開源的敏感詞匯庫[4],對表數據進行敏感詞(Sensitive Word)過濾,以此得到更干凈的數據。本文所用部分spark-shell處理命令如圖2.2.2.1,數據預處理的程序類圖如圖2.2.2.2所示,預處理后的部分數據如圖2.2.2.3所示。
圖 2.2.2.1 spark-shell處理命令
圖 2.2.2.2 數據預處理程序的類圖
圖 2.2.2.3 預處理后的部分數據
??③Jiagu模型
??Jiagu模型[5]是一個國產的開源自然語言處理工具,以BiLSTM等模型為基礎,使用大規模語料訓練而成。Jiagu模型提供中文分詞、詞性標注、命名實體識別、情感分析、知識圖譜關系抽取、關鍵詞抽取、文本摘要、新詞發現、情感分析、文本聚類等常用自然語言處理功能,API豐富,且操作便捷、穩定性高。本文選擇Jiagu模型作為知識抽取的工具,取得了十分理想的效果。
??④知識抽取
??在知識圖譜中,知識一般以三元組(p, r, q)的形式來表示,其中p與q分別代表前后兩個實體,r代表前后實體之間的關系[6]。顯然三元組是構建知識圖譜的重要基礎,三元組中實體間的關系是否準確、完整等也是知識圖譜的構建成功與否的重要判據。
??本項目采用BIO方式[7]對待訓練文本進行實體命名標記,每行一個字符,并按19:5的比例分別設置訓練數據與驗證數據,且為測試訓練所得模型的準確程度設置了較訓練數據75%的測試數據,詳細信息如表2.2.2.1所示。在分別調節學習率(Learning Rate)、迭代次數(Iterations)、阻尼系數(Damping Coefficient)等參數后對標記文本進行訓練,參數詳情如表2.2.2.2所示。實驗結果用held-out方法[8]進行評估,即統計知識圖譜中已有的實體被Jiagu模型檢測出的數量,正確的實體被排序靠前的數量愈多,則在準確率/召回率曲線上,隨著召回率(Recall Rate)的增長準確率(Accuracy Rating)就下降得越慢,也即知識抽取的質量愈高。實驗結果的準確率/召回率曲線如圖2.2.2.4所示,所得部分三元組如圖2.2.2.5所示。
| 訓練集 | 10 | 2435796 |
| 驗證集 | 634547 | |
| 測試集 | 1849620 |
| 0.001 | 50000 | 0.85 |
圖 2.2.2.4 準確率/召回率
圖 2.2.2.5 三元組數據
2.2.3 知識圖譜的可視化
??①三元組的轉化
??本項目所選可視化工具為基于TypeScript開源的可視化框架amCharts 4,其與TypeScript、Angular、React、Vue和純JavaScript(ES6)進行了原生集成[9]。由于用戶通過某個關鍵字請求實體的三元組信息時,其數據量可能是非常大的。此外,amCharts 4要求數據以特定的json格式存儲,顯然2.2.3節所得的三元組無法直接用于可視化(Visualization)。出于存取效率、數據可拓展性等因素考慮,本文將三元組數據預先導入MySQL數據庫,當前端發出數據請求時,通過PHP編程實現從服務器端查找相應的原始三元組數據并使用相應API轉換為json格式返回給前端。前端在接收到PHP返回的原始三元組數據后,需要對原始三元組數據進行預處理,將原始的json數據轉化為amCharts可識別的特定格式json數組,并最終作為amCharts的數據源加載,渲染(Render)到指定的SVG畫布上,最終形成可操作的力導向圖譜。具體交互的流程如圖2.2.3.1所示。
??②圖譜可視化
??amCharts 4是一個基于TypeScript開源的可視化框架,具有圖表種類豐富、圖形效果炫麗、動畫或靜態呈現、與平臺無關等特點,適用于各個行業的可視化需求場景,因此本文將其作為知識圖譜的可視化工具。本文使用HTML/CSS/JavaScript設計頁面元素及基本布局,并采用力導向圖作為圖譜的呈現形式。當用戶在搜索框鍵入查詢關鍵詞時,通過GET請求關鍵字,后臺通過PHP查詢數據庫并返回請求的數據。前端得到請求的數據后,通過JavaScript進行預處理并借助amCharts進行可視化展示。
圖 2.2.3.1 知識圖譜可視化流程圖
2.3 產品硬件配置、軟件截圖與說明
2.3.1 產品硬件配置
??云端服務器配置信息,即產品硬件配置信息如圖2.3.1.1所示。
圖 2.3.1.1 云端服務器硬件配置信息
2.3.2 軟件截圖
??Web應用運行狀況,如圖2.3.2.1至圖2.3.2.6所示。
圖 2.3.2.1 運行截圖-1(檢索關鍵詞:機器人)
圖 2.3.2.2 運行截圖-2(檢索關鍵詞:視覺測量)
圖 2.3.2.3 運行截圖-3(檢索關鍵詞:人工智能)
圖 2.3.2.4 運行截圖-4(檢索關鍵詞:AI開發)
圖 2.3.2.5 運行截圖-5(檢索關鍵詞:k近鄰算法)
圖 2.3.2.6 運行截圖-6(檢索關鍵詞:NLP技術)
??本項目所采用的圖譜可視化工具支持多種主題背景的選擇,如圖2.3.2.7至圖2.3.2.10所示。
圖 2.3.2.7 主題2“科技顆粒”
圖 2.3.2.8 主題3“旋轉之框”
圖 2.3.2.9 主題4“炫動星光”
圖 2.3.2.10 主題5“永痕方塊”
??本產品的Android與iOS端應用正在緊急開發中,不日即可上線服務。
2.4 產品升級計劃
??1、知識圖譜的升級
??(1)目前知識圖譜本地存儲的知識節點數量較小,在未來的上線服務與用戶反饋后,將逐步增大知識節點的數量,擴展圖譜規模。
??(2)目前采用Jiagu自然語言處理工具所提供的知識關系抽取功能需要提供大量的人工標記數據進行模型訓練,人工標記數據耗費大量的人力與時間,在下一步的研究中將會嘗試使用遠程監督模型對原始數據進行標記,減少人力成本的同時,提高了工作效率。
??2、云端服務器的升級
??(1)當前云端服務器是租用阿里云的輕量服務器,性能一般,將來隨著用戶的增多與產品盈利,將會改換為性能更優越的服務器,按需增加服務器數量。
??(2)用戶日均訪問量增長的同時會帶來巨大的流量消耗,屆時將采用分布式云服務器處理框架,并對每臺服務器負載均衡技術,減輕單臺服務器的計算壓力。
??3、客戶端產品的升級
??當前的知識圖譜工具只能從Web端訪問,隨著Android與iOS端應用開發完成,本產品將如期向所有平臺的用戶提供全方位的知識圖譜檢索服務。
3 市場分析
3.1 市場環境分析
??知識圖譜是一種重要的知識表示形式,能夠打破不同應用場景下的數據隔離,通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構從而達到多學科融合目的的現代理論。知識圖譜能為學科研究提供切實的、有價值的參考,因此其發展備受重視,行業前景較為廣闊。
3.1.1 知識圖譜行業PEST分析
??1. 市場因素
??2020年是知識圖譜行業發展過程中非常關鍵的一年,首先,從外部宏觀環境來講,經濟增長方式的轉變,嚴格的節能減排對知識圖譜行業的發展都產生了深刻的影響,另外還有來自通貨膨脹、人民幣升值、人力資源成本上升等等因素的影響;從企業內部來講,產業鏈各環節競爭、技術工藝升級、出口市場逐步萎縮、產品銷售市場日益復雜等問題,都是企業決策者所必須面對和亟待解決的。
??2. 經濟因素
??知識圖譜行業需求持續火熱,資本利好知識圖譜領域,行業發展長期向好。
??今后五年經濟社會發展的主要目標是:經濟保持中高速增長,到2020年國內生產總值和城鄉居民人均收入比2019年翻一番,主要經濟指標平衡協調,發展質量和效益明顯提高;創新驅動發展成效顯著;發展協調性明顯增強;人民生活水平和質量普遍提高;國民素質和社會文明程度顯著提高;生態環境質量總體改善;各方面制度更加成熟更加定型。
??我國知識圖譜行業如何透視現狀、錨定未來、戰略前瞻、科學規劃,尋求技術突破、產業創新、經濟發展,為引領下一輪發展打下堅實的基礎。
??下游行業交易規模增長,為知識圖譜行業提供新的發展動力。
??2019年居民人均可支配收入28228元,同比實際增長6.5%,居民消費水平的提高為知識圖譜行業市場需求提供經濟基礎。
??3. 社會因素
??進入互聯網時代,應用的特點發生了變化,大部分都是大規模開放性應用。同時大數據時代也給新時期知識庫技術的發展帶來了機遇。在大數據時代,我們擁有了前所未有的算力和數據,有著花樣繁多的模型,大規模的眾包平臺,以及高質量的用戶內容,這使得自動化知識獲取、知識圖譜構建自動化成為可能。
??4. 技術因素
??科技賦能VR、大數據、云計算、知識圖譜、5G等逐步從一線城市過渡到2、3、4線城市,實現知識圖譜行業科技體驗的普及化。
??知識圖譜行業引入ERP、OA、EAP等系統,優化信息化管理施工環節,提高了行業效率。
3.1.2 知識圖譜行業發展現狀分析
??知識圖譜市場熱度高漲,其應用市場得到跨越式發展的根本原因在于技術、安全、品種的革新。用戶需求的爆發式增長極大豐富了知識圖譜的應用市場。
??一方面,知識圖譜的產業鏈中原料和供應商的進一步推動,有利于產業源端的重組升級,優化產業流程;另一方面知識圖譜技術、品質、品種的更新迭代,有利于產品的不斷升級和質量改進,進一步滿足用戶的新需求,這些都有利于產業進一步發展。多方的推動使得知識圖譜應用將在未來5年得到爆發式發展。良好的社會環境也為本團隊發展提供了非常肥沃的土壤條件
3.1.3 行業規模分析
??據協會統計,2019年我國知識圖譜產銷較快增長,產銷總量再創歷史新高,比上年同期分別增長14.5%和13.7%,高于上年同期11.2和9.0個百分點。12月產銷比上月分別增長1.7%和4.0%,比上年同期分別增長15.0%和9.5%[10]。
??1. 產品銷售同比增長14.9%
??2019年,產銷比上年同期分別增長15.5%和14.9%,增速高于總體1.0和1.2個百分點,其快速增長對于產銷增長貢獻度分別達到92.3%和94.1%。其中,同比增長3.4%;12月產銷量比上月分別增長0.2%和3.2%;與上年同期相比,產銷量分別增長13.6%和9.1%,產銷同比均呈較快增長。
??2. 銷售同比增長5.8%
??2019年,同比分別增長了8.0%和5.8%,增幅進一步提高;同比增長11.2%和8.8%,12月環比增長12.4%,同比增長25.1%;環比增長10.5%,同比增長12.1%。
??3. 產品銷售同比增長53.0%
??2019年比上年同期分別增長51.7%和53.0%。比上年同期分別增長63.9%和65.1%;比上年同期分別增長15.7%和17.1%。
??另據艾瑞咨詢統計推算,2019年涵蓋大數據分析預測、領域知識圖譜及NLP應用的大數據智能市場規模約為106.6億元,預計2023年將突破300億元,年復合增長率為30.8%,其中2019年市場中以金融領域和公安領域應用份額占比最大[11]。其市場規模發展趨勢如圖3.1.3.1所示。
圖 3.1.3.1 中國大數據只能市場規模(來源艾瑞咨詢研究院)
圖 3.1.3.2 市場應用結構(來源艾瑞咨詢研究院)
3.1.4 中國對知識圖譜行業政策分析
??在2019年工信部曾發文明確指出,2020年將圍繞工業大數據融合應用、民生大數據創新應用、大數據關鍵技術先導應用、大數據管理能力提升4大類7個細分方向著重發展,而知識圖譜作為集大數據和人工智能于一身的綜合技術,也將成為重點關注領域。
??由中國電子技術標準化研究院聯合數家企業與高校聯合編寫的《知識圖譜標準化白皮書》(2019版)也已發布。白皮書從哲學層面、政策層面、產業層面、行業層面、技術層面、工具層面、支撐技術等多個層面對知識圖譜的實際需求、關鍵技術、面臨的問題與挑戰、標準化需求、展望與建議等進行了梳理,涉及智慧金融、智慧醫療、智能制造、智慧教育、智慧政務、智慧司法、智慧交通等十五個領域,并初步提出了知識圖譜技術架構和標準體系框架等,以期對未來知識圖譜在更多行業的推廣應用及標準研制提供支撐。[12]
??并且由中國電子技術標準化研究院提報的國家標準《信息技術人工智能知識圖譜技術框架》(計劃號:20192137-T-469)、IEEE標準《知識圖譜架構》(項目編號:P2807)和《知識圖譜技術要求與評估規范》(項目編號:P2807.1)均已獲批立項。
??種種政策表明我國正在努力推進知識圖譜建設,為知識圖譜行業的飛速發展保駕護航。
??知識圖譜行業國內外對比分析如表3.1.4.1所示。
| 價值定位 | 聚焦于發掘早期初創型企業并助力其成長,快速提升其商業價值 | |
| 促進創客文化形成,獲得高技術商業回報 | 響應宏觀及產業政策號召,吸引資源導入 | |
| 價值創造 | 通過提供服務、資本增值、社會回報獲得有形及無形價值 | |
| 技術交易、股權價值回報為主 | 增值服務、資金補貼為主 | |
| 價值實現 | 尋找合理的商業邏輯與實現渠道,獲得企業成長與收益獲得的雙贏 | |
| 股份轉讓、IPO等獲取收益 | 政府補貼、稅收分成、培訓等 | |
| 價值傳遞 | 形成品牌效應,吸引更多優質企業和初創團隊,擴散傳播價值 | |
| 理念宣傳、技術交流 | 政府站臺、雙創活動、人脈推廣等 | |
3.2 目標市場定位
??我們團隊以“更好地為學生尤其是大學生學習提供便利”為短暫目標,希望能夠使用知識圖譜這種方式來幫助同學們更好地學習,這樣能讓原本繁雜的知識能夠清晰明了地展現出來,并以此為申引,在一些其他方向發展,將產品融入更多其他行業,從而滿足目標消費者的需求。
??當前知識圖譜更多的是應用在電商、圖情(圖情知識圖譜是指聚焦某一特定細分行業,以整合行業內資源為目標的知識 圖譜。提供知識搜索、知識標引、決策支持等形態的知識應用,服務于行業內的 從業人員,科研機構及行業決策者)、企業商業及創投(創業投資)等方面,而用于學習和通用行業的知識圖譜大多不存在或者不夠成熟。目前市場上通用知識圖譜工具涉面較廣,但知識冗余混亂、組織零散、系統性差,不利于用戶的專業學習;垂直知識圖譜工具種類少,成熟的應用僅限于某些領域,在一些具有較大應用需求的領域未獲重視。
??因此,本團隊將主要目標分成兩級,目前主要發展對象是學生群體,再逐漸轉向普通企業用戶或個體用戶,致力于將知識圖譜應用融入生活,在這個大數據互聯網時代給用戶帶來更好的生活體驗和更加便捷的用戶體驗。由此引出幾個可發展方向,具體如下:
??1. 知識檢索關聯
??知識檢索依托創投知識圖譜,可以在原有知識全文搜索的基礎上實現語義搜索并引出相關信息及其他關鍵詞應用形態。其中,語義搜索提供自然語言式的搜索方式,由機器完成用戶搜索意圖識別。例如,如果搜索“人工智能”這個詞語,節點展開后能夠顯示其基本解釋并引出其他相關知識,如“語言識別”,“圖像識別”等。這一功能對學生學習有較大幫助,能夠讓學生在巨大的知識庫中最快速找到所需知識,并完成對相關知識的學習,有助于更全面,更快捷地進行學習。
??2. 金融:識別及預防欺詐
??反欺詐在金融風控中舉足輕重,但基于大數據的反欺詐存在兩個難點:一是如何整合不同來源的結構化和非結構化數據,并有效地識別出身份造假、團體欺詐、代辦包裝等欺詐案件。二是不少欺詐案件涉及復雜的關系網絡,如組團欺詐。知識圖譜是基于關系的表達方式,可輕松解決以上兩個問題,因此在反欺詐中獲得廣泛應用。首先,知識圖譜可以提供非常便捷的方式來添加新的數據源。其次,知識圖譜本身是直觀的關系表達方式,可以幫助更有效地分析復雜關系中存在的特定的潛在風險。
??3. 農業:多媒體知識指導
??大量的農業資料以不同格式分散存儲,傳統的關系數據庫模式不適用于復雜多變的領域,無法實現定義所有可能的知識點并構建關鍵數據庫模式,而知識圖譜這種更加靈活的知識表示模型可以實現管理。利用抽取挖掘技術從各種多源異構數據中獲取相應的知識,并用統一圖譜進行表示,形成完整的知識庫,刻畫作物知識、土壤知識、肥料知識、疾病知識和天氣知識等。
??4. 智能分析
??由于缺乏諸如知識圖譜此類背景知識,各類工具理解大數據的手段有限,限制了基于大數據的精準與精細分析,大大降低了大數據的潛在價值。因此盡管越來越多的行業或者企業積累了規模可觀的數據,但這些數據非但未能創造價值,甚至可能因消耗大量的運維成本而成為負資產。
??知識圖譜的發展提供了強大的背景知識支撐,可以賦能輿情分析、商業洞察、軍事情報分析和商業情報分析此類基于大數據的精準分析。
??知識圖譜和基于此的認知智能為精細分析提供了可能。如汽車制造廠商等制造企業都希望實現個性化制造運用于精細分析案例。知識圖譜構建關于汽車評價的背景知識,如汽車的車型、車飾、動力、能耗等,提取消費者對汽車的褒貶態度、消費者改進建議、競爭品牌等評價與反饋,并以此為據實現按需與個性化定制。
??知識圖譜應用方面,未來將會出現更多應用形態,隨著知識表示技術和推理技術的發展,結合一些新型的可視化方法,我們還可以展望一些預測分析類的應用形態,如疾病預測、行情預測、政治意識形態檢測、城市人流動線分析。除此之外,知識圖譜在輔助多媒體數據處理方面也是一個有待深入研究的方向,如物體檢測、圖像理解等。本團隊的發展方向也會隨著時代發展而不斷向前,將知識圖譜在越來越多的領域找到能夠真正落地的應用場景,在各行各業中解放生產力,助力業務轉型。
3.3 市場容量估算與預測
??隨著我國城市化進程的加快,社會穩定和城市安全等問題逐漸顯現,知識圖譜技術是實現基礎建設的關鍵技術。因此,隨著社會經濟及信息技術的進一步發展,知識圖譜的應用將是未來的一個新趨勢。
??我國知識圖譜行業市場規模前景預測:
??知識圖譜技術在人們日常生活、工作中的應用越來越廣泛。隨著我國社會經濟腳步的不斷加快,對于知識圖譜的應用需求也將越來越大。
??隨著中國新興市場的據起,消費量急劇上升,中國知識圖譜市場已經成為各大國際巨頭勢在必奪的重要市場。同時,隨著發達國家生產成本的居高不下,國際大型制造商為了保持競爭力,降低生產成本,紛紛將生產制造基地轉移至中國、印度等具有較強需求潛力的發展中國家。
??知識圖譜采購的本土化,將為中國知識圖譜企業帶來發展機遇。項目的發展具有一定程度的地域性和傳承關系。隨著中國知識圖譜市場的發展,合資品牌的逐漸增多,多樣化的技術路線也隨之引入中國市場。
??相關行業專家表示,在很長一段時間中,中國的技術路線不會統一,而是會呈現百家爭鳴的發展態勢。無論是哪一種類型的變速器,發展的核心都是基于對能源方面的考慮,追求低碳、高效、低成本,這三大特點是技術發展的動力源泉。
??隨著我國消費升級,消費者的偏好也在發生轉變,年輕化,智能化等消費趨勢讓越來越多的消費者開始青睞。根據2018年的消費者趨勢調查顯示,72%的消費者傾向于在未來選購。
??根據測算,需求方面,未來五年,細分市場年均增速可達25-30%,遠超行業平均56%的水平。產能供應方面,各大主流供應商紛紛擴張產能,產能增幅較快。即便如此,未來五年,旺盛的需求依然會持續領先行業的供給水平。
??綜合以上分析知識圖譜行業的市場需求、現狀、規模、前景預測等行業調研。根據知識圖譜行業以往投資回報率,結合行業的近幾年的復合增長率分析,未來幾年的知識圖譜產業行業投資預期客觀,預期將會達到120%以上。
4 現狀與規劃
4.1 人工智能發展現狀
??人工智能最早能夠追溯到1936年,英國數學家AM. Turing在論文《理想計算機》中提岀了圖靈機模型,然后1956年在《計算機能思維嗎》一文中提岀機器能夠思維的論述(圖靈實驗).之后計算機的發明和信息論的出現為人工智能發展奠定了良好的基礎.1956年在達特茅斯會議上,Marvin Minsky、John Mccarthy等科學家圍繞“機器模仿人類的學習以及其他方面變得智能"展開討論,并明確提出了“人工智能”一詞。
??人工智能的發展經歷了2次發展熱潮。第1次是1956-—1966年,1956年,Newe和Simon在定理證明工作中首先取得突破,開啟了以計算機程序來模擬人類思維的道路;1960年,McCarthy建立了人工智能程序設計語言LSP.上述成功使人工智能科學家們認為可以研究和總結人類思維的普遍規律并用計算機模擬它的實現,并樂觀地預計可以創造一個萬能的邏輯推理體系。第2次是20世紀70年代中期至80年代末,在1977年第五屆國際人工智能聯合會會議上,Feigenbaum教授在特約文章《人工智能的藝術:知識工程課題及實例硏究》中系統地闡述了專家系統的思想并提岀“知識工程”的概念。至此,人工智能的硏究又有新的轉折點,即從獲取智能的基于能力的策略變成了基于知識的方法研究。此后,人工智能的發展進入平穩發展期。
??近些年,大數據時代的到來和深度學習的發展象征著人工智能的發展迎來了第3次發展熱潮。1997年,IBM的深藍(Deep blue)機器人在國際象棋比賽中戰勝世界冠軍卡斯帕羅夫,引發了人類對于人工智能的思考。2016年英國初創公司DeepMind研發的圍棋機器人AlphaGo通過無監督學習戰勝了圍棋世界冠軍柯潔,讓人類對人工智能的期待提升到了前所未有的高度,在它的帶動下,人工智能迎來了最好的發展時代。2019年,上海舉辦了世界人工智能大會,會議集聚了全球人工智能領域最具影響力的科學家和企業家以及相關政府的領導人,圍繞人工智能領域的技術前沿、產業趨墊和熱點冋題發表演講和進行髙端對話,開啟人類對于人工智能發展的新一輪探索[13]。
圖 4.1.1 人工智能發展浪潮
4.2 知識圖譜發展現狀
??知識圖譜自2012年推出以來,進展迅速,已經成為大數據時代的重要知識表示之一,極大地推動了智能化的發展進程。目前知識圖譜技術已經在大規模簡單應用場景中取得了顯著效果。但近年來,知識圖譜的需求從數據豐富的大規模簡單應用場景轉向專家知識密集但數據相對稀缺的小規模復雜應用。這一轉向過程給知識圖譜帶來了新的挑戰。
4.2.1 知識圖譜實現功能
??首先從知識表示層來看,知識圖譜的研究和落地,現在只是完成了大規模簡單應用所需要的表示。知識圖譜本質上是大規模語義網絡。知識圖譜首先是一種大規模知識表示,所以它通常包含海量的實體,往往是數以億計。大規模也體現為多樣的關系,成千上萬的關系。正是因為它規模大,往往需要做出質量妥協,所以很多時候知識圖譜也允許出錯。現在沒有人敢說自己數千萬、數億規模的知識圖譜百分百正確,永遠是99.999%,允許錯誤。也允許schema不完善,從而包容更多實例,精良的模式在很多圖譜里面是缺失的。語義網社區投入巨大精力推動通用schema的建設,但是遇到很多挑戰。
??它支撐的應用,大部分是簡單應用:以實體(詞匯)為中心的知識表示,表達的往往是實體的屬性和關系;它的推理極為簡單,往往都是基于路徑或者上下位詞的簡單推理,以及基于分布式表示的推理。所以知識圖譜這幾年的發展,解決了大規模簡單應用的場景。
??其次實現了簡單推理。符號知識存在的根本價值在于能做推理。當前知識圖譜的大部分推理是簡單推理例如,用戶搜索周杰倫,很多平臺給用戶推薦他的歌。這是因為知識圖譜知道劉德華是歌手,因此一定會有相應歌曲。這是基于上下位關系推理。搜索唐太宗,推薦李世民,這是同義關系推理;搜索戰狼1,那么平臺可能會推薦戰狼2。因為它們都是同類型的電影,并且是同一個導演、同一個主演,這是基于路徑的推理。
??現實中大部分應用利用這些簡單推理就能解決,并且即便只用這種簡單推理也能解決很多以前搜不到、問不清的痛點問題,并且效果顯著。大家現在看到的很多應用場景、應用知識圖譜所解決的根本問題,都是搜索、推薦和問答。
4.2.2 知識圖譜瓶頸
??而最近兩年最大的變化就是我們面臨著應用場景的變換。我們正在從大規模、簡單的應用場景向小規模、復雜應用場景切換。知識圖譜的前期應用場景都是以BAT、TMD為代表,它們屬于大規模簡單應用場景,模式單一,其應用的知識是眾人皆知的。但是現在越來越多的是石油、能源、工業、醫療、司法、金融這種小規模復雜應用場景,它有著密集的專家知識、有限的數據資源和深度的知識應用等鮮明特性,這都是新場景給我們提出的全新挑戰。這與知識圖譜在互聯網應用中用到的衣食住行這類通用知識顯著不同。這一新的形勢對于獲取隱性的專家知識提出了新挑戰。一方面專家知識往往是隱性的,難以直接從文本中抽取。另一方面,專家知識有著一定的門檻,只有少部分行業從業人員才能完成專家知識的眾包工作。除此之外,在盤點數據的時候,會發現大部分的場景數據是稀缺的。首先領域數據本身就稀缺。其次還缺乏高質量的標注數據。我們很多機器學習模型需要標注數據,哪怕有資金可以投入人力標注,但是領域任務往往是不明確的,而專家資源又很昂貴,那么標注也會非常困難。如果不采用人工標注,而利用外界爬取的數據進行融合,也會十分困難,因為領域數據融合代價通常也非常大。所以總體上來講,雖然很多時候我們覺得有大數據,但是相對于很多領域智能化應用而言,我們的數據還是十分“貧乏”[14]。
圖 4.2.2.1 知識圖譜應用場景轉變
??因此我們考慮到人工智能,是當前最熱門研究專業領域之一,其相關方向的人才匱乏也正越來越成為(市場)關注的議題,而在培養人才時,如何準確把握所授相關領域知識的準確性、全面性與前沿性成了一個難題。而與此同時當前的知識圖譜也存在著無法在專業領域得到有效應用的問題。所以團隊選擇構建一個面向學習者尤其是本科生的人工智能領域的垂直知識圖譜。人工智能領域繁多,我們選取機器學習、自然語言處理與機器視覺等三個領域作為代表。
4.3 產品現狀
??我們目前已完成人工智能中機器學習、自然語言處理與機器視覺這三個比較熱門的三個領域的知識圖譜。用戶可以使用我們的產品對這三個領域的相關知識進行檢索,我們也會針對用戶輸入的關鍵詞進行擴展,展現給用戶與其輸入的關鍵詞相關聯的知識。同時對用戶界面進行優化,滿足不同用戶對知識表示方式的需求。
4.3.1 產品成本
??我們的知識獲取主要是基于國內的科技論壇網站,用Python語言編寫爬蟲程序進行自動化獲取的。這些論壇網站的討論基本上是與當前人工智能領域的最新發展內容息息相關的,從而可以保證用戶能夠得到最前沿的信息。為了能夠獲取大量的知識并進行相關的存儲同時要保證產品的反應速度,我們需要對電腦進行不同程度的升級,但這些花銷即可獲取大量的數據。相對而言,成本是非常低的。
4.3.2 產品功能
??首先我們利用知識圖譜使得大規模自動化知識獲取基本可行。針對人工智能這一領域,我們基本實現了從數據獲取->知識抽取->知識融合三個環節的自動完成。
??其次我們利用知識圖譜完成了許多元數據之間的關聯。比如,搜索人工智能時,其往往可以表示為AI,這樣一種關聯就可以告訴我們這兩個字段是可以匹配的,而關聯就能創造價值。所以,我們利用知識圖譜作為數據融合的指引,當在搜索框內輸入關鍵詞并點擊搜索后。主光圈即為輸入的關鍵詞,而周圍的光圈即為其關聯得性質與詳細信息。因此學習人工智能的學生通過一個關鍵詞就可以了解到多方面的知識。
??同時我們利用知識圖譜解決了語言表達鴻溝問題。很多時候用戶所提供的搜索關鍵詞與我們提前存在數據庫里的詞匯表達是有一定的差異的,特別是對于初學者。另外不同專業的人在對人工智能中同一件事情的描述所使用的語言極有可能是不一樣的。而與此同時有些實體本身就有若干種說法。我們通過建設大量詞匯知識圖譜,包含領域的同義詞、縮略詞、上下位詞等關系,有效解決語言表達鴻溝的問題。
??相較于傳統的以簡單的知識應用與常識為基礎的知識圖譜,我們實現了能應用于專業領域,方便學習的知識圖譜。現在越來越多的高校開設人工智能專業,同時國家也在這一領域投入大量資金。根據教育部在2020年2月份公布的2019年度普通高等學校本科專業備案和審批結果,據統計中國人民大學、北京化工大學、北京郵電大學、北京師范大學、中國傳媒大學、復旦大學等180所高校新增人工智能本科專業。這是人工智能(AI)本科專業被納入我國本科專業的第二年,去年僅有35所高校獲批,今年這一數量漲勢迅猛,超過去年的5倍。人工智能的熱潮越來越高,而且人工智能方面的人才也非常的少,所以這是很多高校開設人工智能專業的原因。我們當前的產品可以供學子們進行人工智能相關內容的學習,也能夠根據學子們的搜索關鍵字頻率,將當前最熱門的內容展現給他們。一定程度上也有助于人工智能的推廣與發展。
4.3.3 產品價值
??我們的知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性:首先可以對現實世界中的實體、概念、屬性以及它們之間的關系進行建模;其次,知識圖譜是其衍生技術的數據交換標準,其本身是一種數據建模的“協議”,相關技術涵蓋知識抽取、知識集成、知識管理和知識應用等各個環節。
??同時我們的產品作為一種特殊的圖數據。其中每個結點都有若干個屬性和屬性值,實體與實體之間的邊表示的是結點之間的關系,邊的指向方向表示了關系的方向。非常的直觀美化,對于用戶沒有高的要求,使得任何人,都可以通過我們的產品查閱人工智能領域的相關資料,都可以進行相關的學習。
??其次,我們的產品采用了人類容易識別的字符串來標識各元素;圖數據表示作為一種通用的數據結構,可以很容易地被計算機識別和處理。產品的可擴展性良好,技術路線已經完成,針對不同的應用場景,更改數據源即可完成新的應用。
??對于知識圖譜如何應用于專業領域的這一問題,我們根據自己的創新性技術路線給出了回答。考慮到近兩年應用場景正在逐步們從大規模、簡單向小規模、復雜進行轉變,我們產品的應用前景非常廣闊。同時對于其它正在研究知識圖譜相關內容的人員來說,我們也提供了一種新的技術路線,在一定程度上也能促進共同的進步。
??最后,由于我們的產品部署在服務器上,消耗的自然資源非常少。相較于需要購買大量的書籍來掌握相關內容,我們的產品經濟環保了許多。
4.4 產品規劃
4.4.1 擴大應用范圍
??我們計劃在一年內實現文檔級的知識獲取。考慮到人工智能發展的火熱,在未來肯定會有越來越多的人工智能產品走入大家的生活中。而在現實情況中,我們買任意設備,經常會附贈一個說明手冊,例如買冰箱都會有一個手冊,但是手冊的利用率極低,很少有家庭成員會真正的翻閱。然而當碰到問題想去查找的時候,我們也很難從手冊中找到答案。更何況是人工智能領域的高科技產品。所以基于能否將這些雞肋一般的手冊全部淘汰掉,同時還能提升用戶滿意度的考慮。我們希望團隊的人工智能知識圖譜不僅僅適用于想要學習這一專業領域的人才,也能夠幫助到其它人即使不太了解專業知識也能夠應對這種生活中的突發情況。我們計劃將手冊變成知識庫并存儲在數據庫中利用知識圖譜實現知識問答。那么不僅僅是人工智能這個領域,還可以將比如冰箱的手冊變成知識庫進行儲存,需要變換的就是數據庫里的數據,整個技術路線我們已經完成。所以我們將可以為整個社會解決手冊這一巨大成本問題。實現這個目標的前提是文檔級的知識獲取。基于文檔的信息抽取需要結合文檔自身的結構,書寫風格,和組織形式進行一定的遷移。業務文檔結構化迫切需要從句子級別抽取發展到篇章級別抽取。
4.4.2 開發新的業務
??我們計劃在探究如何將知識圖譜應用于專業領域獲得的啟發應用于平時生活中的簡單場景。在兩年內利用我們的知識圖譜技術路線補全簡單場景中缺失的因果鏈條(背景知識)。萬事萬物都處在一個復雜的因果網絡中,當前的大數據多是業務結果數據,缺乏產生這些數據的背景因果。比如,數據挖掘中的經典案例尿片與啤酒,買尿片的人經常買啤酒。可是為什么會出現這種情況呢,其實如果我們能夠推測男性用戶為什么會同買啤酒與尿片的原因,這實際上可以幫助我們創造更大的商業價值。可能是家里有嬰兒,而孕婦出行不便,因此必須得由作為父親的他來買尿布,同時這幾天由于工作他非常緊張與疲憊,所以買一點啤酒順便緩解一下壓力。如果我們能里用知識圖譜把這個因果鏈條給補全,當男性用戶再次買尿片時,我們推斷他壓力大,因而給他推薦心理咨詢服務。由此得到啟發我們可以推薦很多新的業務。又再次的擴大了整個產品的經濟價值與應用前景。
5 競爭力分析
??近年來,AI一直在高新技術領域保持著相當大的熱度,在未來AI、5G、物聯網、云計算和大數據等技術的成熟與廣泛運用肯定會讓“萬物互聯”的世界煥然一新。透過互聯網思維進行橫向觀察,AI已經普遍進入大眾的視野并在生活、學習、工作等方面有著廣泛的應用。作為AI云學習的工具,本項目不管是在理論層面還是技術層面都有著強有力的核心競爭力。為此,我們分別建立波特五力分析模型和SWOT模型分析本項目的核心競爭力。
5.1 波特五力模型
??波特認為行業中存在著決定競爭規模和程度的五種力量,這五種力量綜合起來影響著產業的吸引力以及現有企業的競爭戰略決策。五種力量模型確定了競爭的五種主要來源,即供應商和購買者的討價還價能力,潛在進入者的威脅,替代品的威脅以及最后一點,來自在同一行業的公司間的競爭。如下圖5.1.1所示。
圖 5.1.1 知識圖譜項目波特五力模型分析
5.1.1 現有競爭者
??作為AI領域的一項成熟的技術,目前在市場上知識圖譜的應用反而不太廣泛,大多數的商業公司甚至一些AI科技公司對知識圖譜的應用與前景認識和把握得不夠充分。誠然,目前確實有一批商業公司在知識圖譜領域投入市場并進行商業運用,但目前沒有大力投入知識圖譜領域的科技公司,如百度搜索引擎中的一些關鍵詞利用詞云技術關聯,圖書館中檢索系統的書本關聯和基本信息關聯的知識圖譜,目前還尚未成熟的人物人際關系分析系統等等。由于目前應用不太廣泛,知識圖譜在技術上基本沒有創新,并且科技公司投入的研發力度不能盡人如意,傳統的知識圖譜構建技術已經出現了新的技術壁壘。不同于傳統的知識圖譜構建的技術路線,本項目在構建知識圖譜的路線上運用自己獨特的創新點,在數據爬取和數據處理方面,將Spark大數據計算平臺強有力的并行處理能力,以及超快的數據處理速度,結合阿里云的云計算能力充分發揮了各大平臺的優勢,同時在可視化方案的選擇上,我們選擇了功能強大的amChart 4,整套技術路線是原創的,使用的工具全部是開源的,這些都屬于本項目的核心競爭力。
5.1.2 潛在進入者
??近年來AI領域的熱度居高不下,各大科技公司紛紛進軍AI、云計算、大數據市場。但知識圖譜是一個獨特的存在,作為一項人工智能領域已經成熟的技術,傳統的知識圖譜大同小異,要么是知識冗余、關聯度不高要么是效果呈現不好、應用不夠廣泛或者是產品基本沒有更新或者更新迭代的速度不能適應使用的場景,加之傳統的技術路線對于目前火熱的AI領域市場,知識圖譜的構建技術鮮有人去進行創新。就目前知識圖譜的市場而言,現階段的競爭者對于本項目構成的競爭影響不夠大,畢竟本項目的核心競爭力就是全套原創的技術路線和開源的構建工具,這是本項目區別于現階段其他競爭者的本質,本項目無論是在技術領域還是商業應用的領域無疑都可以在領先的技術水平下進行產品的升級與轉型,在市場上保持自己的領先地位。
5.1.3 替代產品
??目前,市場上的知識圖譜應用仍然存在著大量的市場空白,傳統的知識圖譜構架技術針對復雜的應用場景,不能夠靈活地進行產品迭代和轉型,無法在短期的投入下看到成效。因此,目前市場上暫時還找不到知識圖譜的替代產品,加之目前市場是知識圖譜構建供不應求,許多需要應用知識圖譜的領域往往由于技術原因而得不到充分的發揮,產品迭代速度跟不上產出的效能。而本套知識圖譜構建的技術相對于傳統的技術更為創新,其應用前景更為廣闊,迭代速度更快,在生活、學習、商業等方面有著巨大的市場。
5.1.4 供應商討價能力
??本項目是一套軟件構建的技術,針對于不同行業,不同人群,不同應用場景都可以進行自適應,且技術路線屬于團隊原創,正擬申請國家專利,構建工具也是遵守Apache Licence完全開源,不存在供應商討價能力這一層面的影響。
5.1.5 顧客討價能力
??由于本項目是一套軟件構建的技術,針對于不同行業,不同人群,不同應用場景都可以進行自適應。本項目技術流程需要針對不同的顧客、不同的使用人群進行智能匹配和迭代。對于目前急需知識圖譜技術支撐的企業,由于可以構建高效知識圖譜的科技公司極少,市場存在大片空白。顧客基本沒有討價的能力。此外,知識圖譜一旦在學習、生活、商業尤其是商業應用帶來的效益高于構建的投入時,新型的構建知識圖譜技術對于顧客討價的空間會經一步的縮小。
5.1.6 知識圖譜領域環境總結
??通過對本項目在知識圖譜應用的場景和前景上進行行業五力競爭模型評估,在模型中行業競爭主要威脅是潛在的進入者,但本項目的核心競爭力就是全套原創的技術路線和開源的構建工具,這是卻別于現階段其他競爭者的,本項目無論是在技術領域還是商業應用的領域無疑都可以在領先的技術水平下進行產品的升級與轉型,在市場上保持自己的領先地位。
5.2 SWOT分析
??基于內外部競爭環境和競爭條件下的態勢分析,就是將與研究對象密切相關的各種主要內部優勢、劣勢和外部的機會和威脅等,通過調查列舉出來,并依照矩陣形式排列,然后用系統分析的思想,把各種因素相互匹配起來加以分析,從中得出一系列相應的結論,而結論通常帶有一定的決策性。運用這種方法,可以對研究對象所處的情景進行全面、系統、準確的研究,從而根據研究結果制定相應的發展戰略、計劃以及對策等。如圖5.2.1所示。
圖 5.2.1 AI云學習 知識圖譜SWOT模型分析
5.2.1 內部環境分析:優勢、劣勢及對策
??優勢:
??在技術上,本項目結合人工智能、Spark大數據平臺、云計算等前沿技術,構建工具全部開源,技術路線完全自主創新,正積極申請專利。
??在市場上,知識圖譜市場空白、應用前景廣泛、市場競爭小、項目靈活。可根據不同的使用場景進行自適應,可運用在學習、生活、商業、軍事等環境,面向大眾化人群。
??技術路線的創新性和廣闊的應用前景構成了本項目核心競爭力,針對不同人群、不同應用場景、整套知識圖譜的構建流程大同小異,更改數據源即可進行不同場景和人群的自適應與匹配,更利于知識庫的不斷自我進化和更新,便于不同產品之間的更新與迭代。
??劣勢與對稱:
??初期項目計算機等硬件資源投入較大。由于數據獲取、數據清洗等環節對于需要分析巨大數據量的知識圖譜,前期需要投入一定的硬件成本支持大數據和Spark平臺構建與運行,解決方案是前期的硬件資源可以分攤給多個slave機器,如本項目初期利用1臺master云服務器和3臺本地筆記本主機進行分布式爬蟲獲取數據,節約成本,后期可視化屬于軟件部分等成本投入幾乎為0。
??項目初期僅用于學習場景,沒有穩定的客戶進行場景自適應匹配。對學習以外的場景進行訓練和自適應,如開放API和知識圖譜的接口給公安系統中的人物關系知識圖譜,利用AI算法幫助公安進行分析、計算與推理,亦或是開放旅游大數據的知識圖譜API進行數據集的訓練。
???項目廣泛運用工業流行的新型技術,針對項目成員的技術要求較高。由于本項目涉及的技術都是基于當下流行的開源技術,對于技術的創新僅存在與當前已存在并流行的工具和技術,解決方案是作為領跑者開放自身的技術路線并構建知識圖譜生態系統,隨著知識圖譜的不斷應用整個AI領域和知識圖譜市場會誕生一系列優秀的產品,此時技術壁壘會被千千萬萬的科技公司一同打破。
5.2.2 外部環境分析:機遇與威脅
??應用前景和經濟前景廣闊,在AI、5G、物聯網等技術前提下,萬物互聯帶來一系列機遇與挑戰。用知識圖譜強大的語義化和可視化的雙重沖擊,便利使用者。
??存在的機遇:
??圖譜問答(語音助手、智能電視)。現在幾乎人手一部智能手機,家家戶戶有智能電視。如果將此套構建圖譜的技術,應用于智能手機、智能電視等領域,不但市場廣大,而且能將相關圖譜直觀的展示給用戶,讓其體驗到知識圖譜不一樣的樂趣。針對用戶提出的問題,對關鍵詞進行知識圖譜構建,并對數據進行可視化展示。顯然,其直觀形象、易于理解。
??學習工具(知識分析、計算、推理)。作說到學習工具,目前市場上充斥著大量產品。將此套技術應用于學習行業,可以針對孩子啟蒙教育的學習、中小學生知識的學習、成人工作培訓的學習、老人生活中知識盲點的學習等等,設計適用于不同年齡層次的人群。應用于學校、家庭、教育機構、培訓中心等等,市場前景廣闊。作為一款學習工具,對用戶所需的知識點進行知識圖譜構建,幫助用戶分析、計算、推理一些復雜的數據,從而幫助用戶理解對應知識,相對于傳統的課本優勢在于簡單,易懂。
??商用知識圖譜(金融、公安、旅游等行業)。此套構建知識圖譜的技術可以在金融、公安、旅游等行業進行投資。如金融行業的經濟關系圖、經濟效益圖;公安系統中人物人際關系圖譜;旅游行業人流量、消費量、熱門地區等重要指標的圖譜。都可以幫助各個行業提高工作效率,預測并及時提出下一步的方案。借助Spark處理大數據的優勢,可以遷移本項目的技術路線,譬如:對一些數據量較大的或者復雜的數據構建知識圖譜,幫助各個行業分析、預測以及總結所需要的數據,節省數據分析時間,提高各個行業工作效率,幫助其發現并及時解決問題,調整策略。
??潛在的威脅:
??知識圖譜目前沒有一個完善的體系和商用化的標準,可能存在后期的技術壁壘。作為領跑者開放自身的技術路線并促進知識圖譜生態系統的構建,隨著知識圖譜的不斷應用整個AI領域和知識圖譜市場會誕生一系列優秀的產品,此時技術壁壘會被千千萬萬的科技公司一同打破。
??隨著AI、5G、物聯網的應用,技術的不斷升級,知識圖譜的廣泛應用會導致大量科技公司涌入知識圖譜行業,壓縮競爭本項目的生存空間。
6 組織與人員
6.1 團隊目標
??本項目團隊的目的是構建一個面向學習者尤其是本科生的人工智能領域的垂直知識圖譜,通過Spark完成人工智能知識的重整,實現一個學習者尤其是本科生適用的知識圖譜工具。
6.2 組織結構及各組職責分配
??團隊組織結構圖如圖6.2.1所示。
圖 6.2.1 團隊的組織架構圖
??1. 市場營銷組
??①對市場有著靈敏感知,了解趨向發展前景;
??②對產品的功能的設計,適應人群進行綜合把控;
??③進行市場調查研究與分析,提出營銷策劃方案,提供團隊決策依據;
??④制訂營銷方案和計劃,并付諸實施;
??⑤制定并執行品牌定位及整體宣傳策略、市場調查及競爭對手的動態 收集;
??⑥做好產品宣傳工作;
??⑦制定融資方案。
??2. 技術開發組
??①結合市場營銷組提供的可靠信息進行產品設計;
??②制定合理的創新技術研發計劃和階段性目標,并付諸實施;
??③升級改善核心技術;
??④從各個方面完善產品,使之更貼合消費者需求。
??3. 財務組
??①辦理各種財務事務;
??②制定季、年度財務預決算文件;
??③合理分配、核算、監督團隊在項目開發經營過程中的各種財務行為;
??④制定各類財務制度;
??⑤按天、月、季度、年分別做出清晰明了的財務報表。
??4. 采購組
??①制定項目所需采購計劃;
??②負責物資材料質量證明和相關資料的索取、下發和整理入檔、負責購銷合同的傳遞和入檔管理;
??③負責辦理材料入庫、記賬、結算、報賬等有關的業務手續;
??④定期編報材料采購報表,分析采購價格及管理費用的開支,降低采購成本。
??4. 人力資源組
??①負責團隊的人力資源管理;
??②處理日常辦公室工作;
??③制定團隊日常工作規章制度;
??④整理保存各類文件檔案;
??⑤協助團隊申報辦理各類有關團隊運作的手續;
??⑥負責日常的后勤工作;
??⑦執行辦公室的規章制度,管理好辦公室的日常辦公秩序。
6.3 主要成員
6.3.1 前期主要成員
| 文華 | 技術開發部 | 負責產品數據處理及項目的統籌與規劃等 |
| 劉宏鑫 | 技術開發部 | 負責項目數據可視化及前端頁面設計等 |
| 周余 | 技術開發部 | 負責項目所需數據爬取及軟件后端編程等 |
6.3.2 后期主要成員
| 文華 | 技術開發部 | 負責產品數據處理及項目的統籌與規劃等 |
| 劉宏鑫 | 技術開發部 | 負責項目數據可視化及前端頁面設計等 |
| 周余 | 技術開發部 | 負責項目所需數據爬取及軟件后端編程等 |
| 陳葉紅 | 市場營銷組 | 負責項目當前及未來相關市場調研數據分析 |
| 王文舉 | 市場營銷組 | 負責根據市場分析指定相應營銷策略 |
| 劉城浩 | 采購組 | 負責材料采購并輔助完成文案設計 |
| 郭立程 | 財務組 | 負責財務管理并輔助完成文案編寫 |
| 林聚 | 人力資源組 | 負責人力資源管理并輔助完成文檔查驗 |
6.3.3 指導老師
| 周波 | 計算機與信息學院 | 人工智能、大數據、云計算 | 合肥工業大學副教授 |
6.3.4 團隊概況
??本項目團隊主要由8名學生與1位指導老師組成,有負責前后端等技術的同學3名、負責調研和文案的同學2名以及負責人員協調和財務分析的同學3名,指導老師是從事數據分析相關領域多年的教授,可提供專業的知識理論支撐。
??團隊組建特征:
??(1)團隊發展目標清晰:把自身利益和社會利益相結合,作為一個創業團隊,隊內成員有多年負責活動及項目策劃的經驗,我們時刻清楚自身的目標,通過一個五年期的計劃,把AI云學習打造成一流的Web應用及APP的實業,實現我們的創業夢,讓萬千學子在AI云學習中輕松實現高效學習。
??(2)團結且價值觀統一:團隊崇尚開放、誠實、協作的辦事原則,同時鼓勵隊員自主參與,并定期開展思想交流會,化解沖突的同時交換想法激發靈感,組織內部比較容易形成相互信任的環境。多數成員有黨員背景及擔任班委經歷、奉獻意愿強烈,渴望在團隊內實現個人價值,因而調動了團隊內工作積極性,使得項目完成進度速度大大提升;在項目進行中,本團隊各成員合作緊密,各部門間工作溝通頻繁,針對現狀及時調整工作方向,提高工作效率。綜上團隊整體梯隊結構合理,在所從事的技術方面均具有獨擋一面的能力,同時積極進取、熱心求學、擁有良好的團隊精神。
??(3)專業素養高且技能互補:作為計算機類本科生團隊,本團隊成員均有過軟件開發背景,對于B/S架構軟件的開發流程十分熟悉,在軟件制作時分工明確,前端、后端及數據庫均有相關專業人才負責開發和維護,良好的個人技能能夠讓我們能出色地完成任務,在該項目開發過程中各個技術模塊間銜接順暢,各項工作的完成速度及完整度非常高。
6.3.5 團隊管理
??我們在創業過程中,對團隊實施了有效管理:①目標管理:團隊樹立了共同的知識服務目標。在統一的目標管理作用下,團隊成員共享目標,在明確的方向下攜手共進,共同努力完成團隊目標。②團隊合作:在項目進行中,加強團隊合作,各部門經常性有效溝通,提高各部門之間的工作效率。③時間管理:對項目的進度進行了合理的安排,并且堅持按照既定的計劃來實施每一個步驟。④流程化管理,團隊以流程為主線的方法管理,強調以流程為目標,以流程為導向來設計組織框架,同時進行業務流程的不斷再造和創新,以保持企業的活力。⑤人員管理:對于項目各部分負責人,充分考慮其背景、經歷等因素,做到將合適的人放到合適的崗位上。⑥學習管理:在項目進行的過程中,大家都懷著極大的熱情來學習新知識,彌補自己的不足。
6.4 團隊戰略
6.4.1 團隊定位
??團隊專注于智慧知識圖譜構建與優化,利用數據采集技術,與移動互聯網、人工智能高度融合,通過軟件工程標準手段,開發建立搭載專家系統的知識圖譜平臺,為后續大規模的本科生寬泛的相關性概念理解或深入地系統學習提供良好的解決途徑,技術產品和技術應用不僅符合中國大體量本科教育現狀和人文特點,而且與國內外同類產品相比,具有較高性價比。未來本團隊將不斷完善技術創新、專利申請等工作,將團隊的技術優勢轉化到知識服務領域的規模化應用中, 以互聯網、大數據、人工智能為依托,以知識檢索解決方案的研發、銷售為突破口,打造國內一流的互聯網+創業團隊,推動我國學習教育現代化進程,為我國信息化發展做出卓越的貢獻。
6.4.2 團隊愿景與使命
??當前我們已經身處全民學習和人工智能的巨大熱潮中,在知識信息爆炸的今天,每個人都需要一款可以有效梳理網上有效信息的工具,在我們的知識圖譜平臺下,用戶可以體驗到多個熱門領域的知識圖譜、相關知識進行相關性檢索,并得到關鍵詞的相關擴展結果,滿足不同用戶對知識的不同需求。打造一套符合人工智能新時代學習方法體系,并提供迎合實際需求的優質產品與服務,策劃適用于廣大知識用戶的、性價比高、經濟性的解決方案,鑄就國內一流,對世界有影響力的相關信息檢索和知識服務品牌。
6.4.3 團隊理念
??團隊本著“為用戶節省時間,以知識服務為核心,升級知識網絡體系結構,創造新時代知識圖譜”的核心理念,為客戶服務、為當前互聯網知識產業結構的升級發展出力。
??本團隊打造一流、先進產品的根本目的是服務知識體系于客戶,通過優秀的產品和優質的服務滿足客戶需求,更好的推動用戶的知識積累,取得廣大用戶的信任,促進項目技術、管理等方面的不斷創新,逐步推動團隊發展,實現社會價值。
7 財務分析
7.1 創業資金來源
??本團隊成員都是在校大學生,創業初期資金非常匱乏,而本項目的資金花費少維護成本低,對于初期小規模創業很是契合,到后期進行業務拓展網站更新搜索引擎升級時,需要的資金可由前期獲利彌補,可基本滿足項目需求,但是本項目具有良好的發展前景特別是在大數據趨勢愈發明顯的現代生活辦公中,而如何快速發展項目來及早參與到大數據的趨勢中來就成了將本項目獲利最大化關鍵問題,所以如何盡快獲得一定數量是目前的主要問題,可使用的融資方式為:
??創業貸款:利用政府大力扶持大學生創業的契機爭取獲得政策性貸款,政策性貸款一般是政府貼息的,貸款成本很低,我們可以充分利用這些優惠條件,為創業獲得更多的啟動資金。
??本團隊第一年需投入75萬元人民幣。
??預計本團隊前5年的年平均盈利達到60萬元,結合對我們的技術優勢、市場份額定位、產品銷量、經濟效益分析,整個項目估值約500萬元。
7.2 資金使用分析
7.2.1 運營費用預期(第一年)
??10萬用于購買辦公設備
??10萬用于團隊日常經營費用
??30萬用于團隊人員工資
??10萬用于市場推廣費用
??5萬不可預見費用
??小計:65萬
7.2.2 生產流動資金預期
??按第一年銷售500套系統,每套系統采購成本以1000元計算,需要50萬。
??采購資金;以每套售價3000元計算,大約有100萬元營業收入。考濾到第一年的流動資產周轉率比較低,按1.5次來計,我們總共需要的流動資金大約為:67萬元。
7.3 三年內銷售盈利預測
| 貨幣單位:萬元(人民幣) | 第一年 | 第二年 | 第三年 |
| 收入預測 | 100 | 200 | 300 |
| 辦公室租金 | 10 | 10 | 20 |
| 工資 | 30 | 50 | 70 |
| 材料成本 | 10 | 20 | 30 |
| 管理費用 | 4 | 8 | 15 |
| 銷售費用 | 5 | 10 | 15 |
| 財務費用 | 4 | 8 | 15 |
| 支出合計 | 63 | 106 | 165 |
| 盈利情況預測 | |||
| 毛利潤 | 50 | 90 | 130 |
| 營業利潤 | 37 | 94 | 135 |
| 所得稅率 | 15% | 15% | 15% |
| 所得稅 | 5 | 14 | 20 |
| 凈利潤 | 32 | 80 | 115 |
| 凈利潤率 | 32.00% | 40.00% | 38.33% |
8 風險與對策
??隨著互聯網技術的快速發展、硬件設備的快速更新迭代與目前即將快速普及的5G技術的應用,在當今的市場,特別是在移動互聯網行業,優秀產品層出不窮,市場方向多種多樣,競爭也非常激烈。尤其是在2020年新冠疫情的影響下,線下實體行業首當其沖受影響最大,互聯網行業雖然所受沖擊較小且有借此迅猛發展的態勢,但是仍不可掉以輕心。不確定的經營風險是企業投資經營前必須考慮的一個重要因素。在市場競爭,經營管理,技術,財務等方面都存在一定的風險。針對現有可能存在的風險,我們做了一定的分析,并對此做了相應的應對策略。
8.1 風險分析
8.1.1 市場競爭風險
??現在市場上已經有許多大型知識圖譜被構建出來,而且已經有商業公司在知識圖譜領域投入市場并進行商業運用,與這些公司相比,我們起步晚,團隊實力也不夠雄厚,在市場競爭中處于很不利的地位。且AI云學習作為一款剛上線的Spark構建知識圖譜的人工智能學習工具app,在市場、技術、影響力上都無法與這些成熟公司相比。這會對AI云學習市場占有產生極大的市場競爭風險。
8.1.2 經營管理風險
??目前AI云學習的創業成員均為在校大學生,經營管理方面有著很大的不足,運營團隊經驗欠缺,在決策執行方面也有所欠缺,與那些已經成熟的互聯網公司相比處于劣勢,這在創業過程中顯然是一個不可避免的問題。且后續可能由于部分成員需要考研而離開團隊,或者因就業問題部分成員去更大的公司發展,這就使團隊面臨人員流失的困境,過大的人員流動勢必會影響整個團隊的運轉,進而對團隊產生不利影響。
8.1.3 技術風險
??互聯網的快速發展給社會帶來了便利與經濟效益,但互聯網與手機網絡中存在病毒黑客等問題也是不可忽視的,這些問題可能會導致AI云學習出現使用故障,或者服務器被攻擊造成用戶數據泄露等嚴重問題,對這些問題的預防和處理必然要極度重視。同時,作為一個在校大學生創業團隊,我們要認識到自身技術上的不足,與已經成熟的公司相比我們在技術積累、人才積累、研發團隊、產品的更新迭代研發上還有很大的差距。這些問題與技術差距會很大程度上制約團隊的發展速度跟發展潛力。
8.1.4 財務風險
??資金的供應流動對一個團隊來說至關重要,投資方的投資意向對我們來說是機遇也是風險,一旦在產品初期投資方資金撤出勢必會對產品產生影響,運營資金不足,團隊發展也會陷入困難。除了投資方方面可能帶來的問題之外,團隊內部的資金使用也要引起重視,對于產品研發,測試,優化,運營,推廣等費用都要進行嚴格透明的控制監督方法,防止內部原因導致資金鏈斷裂,團隊發展困難。
8.2 風險規避對策
8.2.1 市場競爭風險對策
??目前市場上已經出現了一些商用的知識圖譜工具,但我們發現這些知識圖譜工具普遍存在著垂直知識圖譜工具種類少、知識冗余混亂、組織零散、系統性差等缺點。它們的這些缺點正是AI云學習與其競爭的優勢,解決這些問題正是AI云學習的目標之一,對這些問題的專門處理與解決就是我們在市場中的優勢所在。
??和其他的商用軟件相比,AI云學習的用戶定位更集中于在校學習的大學生尤其是本科生,因此在前期宣傳時可以把宣傳資源集中在在校大學生方面。
??基于以合肥工業大學為起點,積極利用同校同學之間的友好關系進行推廣,同時可以溝通相關專業的老師詢問是否可以推薦學生使用AI云學習幫助學習,同時充分發揮不同學校之間同學相互認識的優點,以合肥工業大學為起點積極向各個高校進行推廣AI云學習,迅速占有市場。
??技術更新與產品設計不斷的進行優化調整,由于主要用戶人群為在校大學生,除了要提供更便捷高效準確的學習幫助之外,也要提供更加多元化個性化人性化的使用體驗。
??在與當前成熟企業有資格對抗較量之前,對AI云學習產品的部分功能加以保密,逐步解鎖,確保始終保持在想法創新上領先對手。
8.2.2 經營管理風險對策
??組織選拔有相關知識經驗的人員成立一個專門的市場運營團隊,主要用來負責團隊日常運營時出現的問題,盡力避免因運營失誤而產生的不良影響;在一些重大的決策實行之前,需要召開核心成員大會,大家一起對問題進行分析討論,最后投票選出可行的方案。同時要提前建立一套行之有效的面對運營失誤的高效處理方案,盡量將這類問題扼殺在萌芽之中,對沒有避免掉的問題盡量將影響與損失降低到最小。
??對于團隊的人員流動問題要發揮創業團隊中人員關系密切的優點,以同學關系為樞紐,在學校中各個成員關系密切,團隊成員之間可以不定期的聚集在一起交流各自的想法,同時各個成員對自己未來的想法規劃進行交流,避免出現有成員突然離開,對團隊造成影響。
??同時要運用戰略性的人員管理思想,對關鍵崗位要提早實施人才儲備制度,注意培養有能力有潛力的員工作為關鍵崗位的接班人,在不影響團隊事務的前提下,多帶一些有潛力的員工到相關的場合觀摩學習,培養其以后面對此類場合與問題的能力。
??建立完善的考核升職制度,同時聘用不同專業背景的員工,采取多元化人性化的管理措施,提升員工的認同感與自我價值的實現感。積極接納有突出貢獻與優秀能力的人才進入團隊核心,激勵員工的奮斗熱情。
8.2.3 技術風險對策
??在AI云學習軟件的研發之初就要考慮靠安全性問題,在設計與編寫軟件代碼時要注意系統的安全性,盡力避免可能出現的BUG。在后期進行軟件測試時要著重對軟件的安全性進行測試,確保能夠保證用戶的個人信息安全。同時挑選優秀技術人員成立技術小組,負責軟件的日程管理與優化,給用戶良好的使用體驗;同時負責在出現軟件安全事故時,能夠對問題及時的進行排查與處理,及時排除安全風險。
??技術人才是好的產品與產品安全的重要保障,對此團隊要積極招收技術人才,對新招收的技術人員有優秀員工進行培訓,讓他們盡快的能發揮自己所學。也可以在合肥工業大學相關的專業中尋找合適的同學加入,以提高技術人才儲備。同時應當適當提高技術人員的薪資福利,留住技術人才,盡快的完成人才積累。
??積極的對產品進行優化升級,在積累一定的技術人才之后可以適當的加快產品的更新迭代周期,同時研發新的技術,為軟件添加新的功能,積極擴大優勢牢牢抓住用戶市場。
8.2.4 財務風險對策
??在吸引投資方投資時也要進行適當的篩選,最佳選擇是選擇短期投資方,前期盡快完成自身的資金積累,在投資方拿到自身的回報之后我們也能及時擺脫對其資金上的依賴,避免團隊發展受到投資方的影響與控制。
??成立財務部門,對于產品研發,測試,優化,運營,推廣等費用都要進行嚴格透明的控制與監督,同時定期向管理團隊提交財務報告,確保內部資金流動的安全。設立完善的資金申請審批監督制度,防止內部人員出現報假賬貪污挪用公款等現象,確保資金都用在了應該使用的地方。
??設立一部分預算,用于為團隊購買各種必要的商業保險,用來避免一些意外或者不可抗力因素對團隊造成的損失。
參考文獻
[1]劉澤華, 趙文琦, 張楠. 基于Scrapy技術的分布式爬蟲的設計與優化[J]. 信息技術與信息化, 2018年2 - 3期: 121 – 126.
[2]賽金辰. 基于Spark的SVM算法優化及其應用[D]. 北京郵電大學, 2017年1月.
[3]李爽. 基于Spark的數據處理分析系統的設計與實現[D]. 北京交通大學, 2015年6月.
[4]https://github.com/fighting41love/funNLP
[5]https://github.com/ownthink/Jiagu
[6]徐增林, 盛泳潘, 賀麗榮, 王雅芳. 知識圖譜技術綜述[J]. 電子科技大學學報, 2016年7月, 第45卷第4期: 589 – 606.
[7]劉哲寧, 朱聰慧, 鄭德權, 趙鐵軍. 面向特定標注數據稀缺領域的命名實體識別[J]. 指揮信息系統與技術, 2019年10月, 第10卷第5期: 14 – 18.
[8]MINTZ, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]// Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Proceeding of the AFNLP. Stroudsburg: ACCL, 2009: 1003 – 1011.
[9]孫啟民, 胡莉麗, 黃威. 基于SNMP&Amcharts的性能監測技術在動環監控系統的應用[J]. 技術創新, 2016年02期: 35 – 38.
[10]中國產業調研網. 2020【知識圖譜】行業市場調研及前景預測分析報告[R]. 2020.
[11]艾瑞咨詢. 去往認知海洋的一艘船 中國知識圖譜行業研究報告[R]. 2019.
[12]中國電子技術標準化研究院. 《知識圖譜標準化白皮書》(2019版)[R]. 2019.
[13]李曉理,張博,王康,余攀.人工智能的發展及應用[J].北京工業大學學報,2020,46(06):583-590.
[14]肖仰華.知識圖譜的下半場:機遇與挑戰[R]
附錄
產品獲2019年iCAN國際創新創業大賽安徽賽區省級二等獎證書
附圖 1 2019年iCAN國際創新創業大賽安徽賽區省級二等獎證書
產品獲合肥工業大學創新創業教育中心審核通過證書
附圖 2 大學生創新創業大賽證書
總結
以上是生活随笔為你收集整理的合肥工业大学第六届“互联网+”大学生创新创业大赛项目计划书:AI云学习 —— 一款基于Spark构建知识图谱的人工智能学习工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JS_16闭包
- 下一篇: AI语音外呼机器人是如何帮助电销行业获客