微信公眾號
分享
基于兩項數據庫國際標準的探索與實踐
來源:大數據發展部 ??時間:2019-01-17

一、數據庫國際標準制定的概況與意義

201712月,習近平總書記在中共中央政治局第二次集體學習時提出審時度勢、精心謀劃、超前布局、力爭主動,實施國家大數據戰略加快建設數字中國,既要集中優勢資源突破大數據核心技術,還要加強國際數據治理政策儲備和治理規則研究,提出中國方案。

數據庫作為支撐信息技術、大數據處理的基礎軟件,是信息產業發展不可或缺的支柱之一。在國家層面,數據庫的建模,數據庫信息量的大小和使用頻度是衡量這個國家信息化程度高低的重要標志。圍繞國家大數據戰略,掌握自主可控的數據庫核心技術,并以此參與并主導數據庫國際標準的制定成為推動戰略發展不可缺少的實施要素

(一)制定數據庫國際標準是提升產業競爭力的重要措施

數據庫國際標準的制定從1986年到開始,已歷經30多年的歷史,現主要由ISO、IEC兩大國際標準化組織負責。當前,在數據庫的市場競爭中,甲骨文、SAP等傳統數據庫廠商依舊占據著較大的市場份額,中國在數據庫國際標準中的影響力距離美國、德國、日本等發達國家還有一定的差距,但隨著大數據時代的到來,傳統數據庫已經不能滿足大數據產業的信息處理任務,數據庫技術急需升級迭代,為我國數據庫產業的發展帶來了新的機遇。

同時,技術的升級迭代也帶動了數據庫標準制定權的新一輪爭奪??刂蘋蠐跋轂曜賈菩薅┮丫晌菘饈諧【赫碌慕溝?,標準競爭優勢是一個國家(地區)在國際市場競爭中分配更多利益的重要基礎。越來越多的國家和地區將主導制定國際標準作為促進產業升級、提升市場競爭力的重要手段,依托先進的技術標準掌控國際市場競爭的主導權。

數據庫標準競爭的勝利者可以在相當長時期內控制數據庫技術發展方向和市場創新方向,對數據庫國際市場產生廣泛的控制力和行業領導力。數據庫標準制定的話語權就是信息產業競爭的主導權,誰掌握了這一話語權,也就掌握了國際市場競爭和價值分配的話語權。

大力推動中國的數據庫標準方案“走出去”,讓更大范圍的國際市場接受和采用中國的數據庫標準,將極大地提升我國信息產業市場競爭力,也是我國掌握發展的主動權的必要舉措。

(二)制定數據庫國際標準是構建國家影響力的具體抓手

通過制定數據庫國際標準,擴大我國科技的影響力,是科技實現國際化最具實質性意義的一個步驟,為構建中國的科技話語權提供了實際路徑。

引入多方合作機制,推動數據庫“中國方案”走出去。我國的數據庫國際標準制定工作在國家工業與信息化部、中國電子技術標準化研究院的下正穩步進行,并取得了突破性成果,同時,以柏睿數據為代表的中國企業也有非?;謀硐?,共同推動在中國在數據庫國際標準領域了從學習者參與者再到重要參與者甚至主導者的角色演進。政府、相關機構、企業的多方合作成為國內標準走向國際舞臺的典范。

國際化數據庫標準應用。將中國的數據庫國際標準應用到更多大數據項目的實施中,參與更多國家的信息化建設,使中國數據庫標準的國際性得到更大程度的體現,將成為中國科技進入國際市場,打造中國形象,形成中國聲音的重要渠道。

 

二、數據庫國際標準制定歷程與成果

(一)中國制定的兩項數據國際標準

在國家工業與信息化部的悉心指導,中國電子技術標準化研究院與柏睿數據的共同努力下,中國在數據庫領域國際標準制定中突破了歐美國家的壟斷,取得了兩項重大的研究成果:

1.中國提出的 “SQLMapReduce及與之相關的流數據處理的支持”標準提案,經國際標準化委員會ISO全票通關,定名《SQL9075 2018流數據庫》,于2018年正式形成國際標準并規劃與2019年全球公布推廣,這是第一項由中國主導制定的數據庫國際標準。

*以該項標準化技術所形成的“流數據庫”軟件主要功能是對“流式數據”的進行實時分析與處理。流式數據是指未進入數據庫內、大批量且具有連續性、時效性的數據流,如互聯網上實時產生的數據、智能制造中設備運轉信息,自動駕駛中的實時地理位置信息等。流數據庫依靠強大性能對這些隨時變化的數據進行高效的分析與處理。

2.由中國提出的基于庫內人工智能技術的標準提案——《AI-in-Database 庫內人工智能》國際標準提案”獲得全會復審通過,確定由中國主導形成國際標準。

*以該項標準化技術所研發的“人工智能并行算法庫”將數據庫技術與人工智能算法進行了深度融合,在數據庫內部直接進行機器學習與深度學習,節省了數據傳輸所耗費的時間,能夠提高數據分析的效率,更快速的支持智能決策。

同時,大會委托柏睿數據董事長兼CTO劉睿民先生負責這兩項國際標準的主筆撰寫,他也是上述產品的知識產權擁有者。目前,劉睿民先生還擔任中國ISO/IEC人工智能&物聯網&智慧城市國際協調員,持續探索我國參與并主導大數據國際標準的工作。

(二)標準制定基本過程

 

 


一項國際標準的形成,要具備技術領先性、市場適用性等特點,同時還要經過漫長的審核流程,才能確保其權威性。以《SQL9075 2018流數據庫》國際標準的通過為例,經歷了2015年格拉斯哥會議標準草案提出階段、2016年東京會議的提案通過階段,2017年俄亥俄會議的標準形成階段,2018年多倫多會議的主導確立階段,到2019年,歷時整整五年,才得以正式發布。

在制定過程中的一些細節尤其值得玩味。例如流數據庫國際標準提案獲得了代表團的高度評價,但提案人劉睿民由于多年海外留學與工作經歷,被誤認為美國代表;草案最終發布時,署名改為美國代表Jim Melton,最終這些問題都在工業與信息化部等的幫助下得到了順利解決,由此我們可以看出發達國家對國際標準制定的重視以及中國在該領域的話語權不足,這也提醒我們只有將核心技術標準掌握在自己手里,才能擁有發展的主動權。

三、國際標準化大數據技術的融合應用

技術應該服務于社會、服務于人,只有與具體應用、實體經濟相結合,才能發揮出其應有的價值。大數據正在走向與實體經濟深度融合的新階段,需求不斷細分,技術不斷深耕,深化融合應用,是實現我國大數據戰略加快數字中國建設的必然途徑。

通過制定兩項數據庫國際標準:《SQL9075 2018 流數據庫》與《Ai-in-Database 庫內人工智能》國際標準,讓柏睿數據掌握了數據庫研發的核心技術,并將其應用到產品研發當中,形成完善產品體系,逐步建設全內存分布式數據庫、全內存流數據庫StreamDB、庫內人工智能并行算法庫,構建起基于自主研發的高性能大數據實時分析平臺,支撐各地政府、各領域企業大數據分析應用,下面的案例均應用了基于國際標準的大數據實時分析技術。

(一)甘肅省市社情民意互聯網大數據分析平臺

甘肅省市社情民意互聯網大數據分析平臺是按照省委、省政府要求,由省統計局牽頭建設的信息性智庫系統,平臺從2017年開始試運行以來,得到了國家統計局民調中心、國家信息中心等相關領導的高度評價,被國家統計局民調中心確認為大數據分析的典型應用案例,向全國民調中心進行推廣。

平臺通過實時抓取涉及政治、經濟、軍事、娛樂、體育、衛生、科技、個人生活等各個領域的數據,運用流數據庫對實時事公共事件的媒體報道和公眾輿論信息匯聚和統計分析;對突發事件第一時間發出預警,及時準確地把握全局性、傾向性問題;并且通過庫內人工智能技術自動生成社情民意監測專報做到準確為民生服務提供及時、準確、全面的決策分析數據支撐。

 

1  甘肅省市社情民意互聯網大數據分析平臺

(二)宏觀經濟統計分析平臺

中國人民大學統計學院與柏睿數據共同成了大數據統計分析聯合實驗室,以宏觀經濟統計及大數據分析預測為研究方向,形成了宏觀經濟統計大數據分析平臺。平臺多維分析、深度挖掘,建立各種指數或模型,反映宏觀經濟的運行狀況和預測未來走勢,實時出具宏觀經濟指標。

該平臺通過對宏觀經濟數據的實時處理分析,可以幫助相關部門采取有效的宏觀經濟管理措施來應對經濟的發展變化,為政府提供靈活、便捷的經濟發展態勢,也可以為研究機構提供高品質、低成本、更豐富的經濟發展關聯信息資源,還可以為企業制訂發展策略提供參考,具有廣泛的實用性,被評選為工業和信息化部2018大數據產業發展試點示范項目、軟博會2018年度十佳優秀案例。

2 宏觀經濟預測大數據平臺

(三)聯通用戶標簽大數據搜索引擎

聯通用戶標簽大數據搜索引擎是由柏睿數據與廣東聯通合作的基于移動運營商的數據建設的一套精準營銷平臺。主要的功能實現了標簽體系的建設,用戶畫像,相似用戶查找功能,總體涉及數據量大,數據要求實時的特點。

通過柏睿大數據實時分析平臺對全網用戶的基礎信息和行為數據的歸納和分析結果,標識用戶的屬性特征和行為偏好,以標簽信息為基礎刻畫形成用戶360°的用戶畫像。涵蓋9大類,共計3700余個用戶標簽。并形成互聯網信息庫,對互聯網日志中的URL/APP等內容進行識別的規則管理,從而識別出用戶上的網站、使用的APP、搜索的關鍵字、產生的行為、訪問的內容等。該平臺可以識別4URL,20萬個互聯網產品,1.3萬余款APP,基礎詞庫142040萬個關鍵詞。

 

作者:柏睿數據數據庫與人工智能研發中心,中心主要負責數據庫核心技術的研發,數據前沿科技探索,數據庫與人工智能技術融合。

 

 

本文發表于由國家信息中心數字中國研究院編輯出版的《數字中國建設通訊》2018年第2