區塊鏈拉開數字化“戰疫”

導語
利用區塊鏈技術可以有效提高自動預警信息系統的速度、透明度與靈敏度。

根據中國疾病預防控製的官方統計數據,目前新冠病毒感染的肺炎疫情已經擴散至全國,無一省(自治區🦹♂️、直轄市)得以幸免。
根據目前全國各地的疫情狀況🙄,與其說這是“武漢的”或“湖北的”疫情[1],不如稱其為“全國的疫情”。與疫情相關的數據是分散在全國各地的🚶♂️➡️,即便是一些較偏遠的地區🙎🏽,比如黑龍江、雲南🛵🪥、福建等地🧑🦱👧🏼,甚至西藏也出現了病例。既然數據來源如此分散❓👨👩👦,如何將原有僅針對單一或有限幾個重點地區進行觀察研究轉為全國概況的做法將是值得探討的課題。
同時,圖1記錄了全國累計確診及疑似病例數目的變化,二者最初基本呈指數型增長,並在2020年2月1日前後達到增長高峰👷🏼♂️。但在2月4日👨🦽➡️🖥、5日左右♟,這兩類病例的增長速度都開始有了下降趨勢👨💼🧚♂️,尤其是除湖北省之外的大部分地區,有連續多日的下降。從2月13日起,全國範圍(包括湖北省)內累計確診病例數目的增長速度明顯放緩,即新增確診病例數目較之前大幅降低。 
我們註意到🧑🏽✈️,圖1中顯示的數據記錄起點為2020年1月16日,而首個病例在2019年12月已經出現👳🏿,但無論是疾控等官方機構,還是各大活躍媒體都是從2020年1月中旬前後才開始記錄或披露數據的🪤👨🏫。國家衛生健康委員會在2020年1月20日宣布對新型冠狀病毒感染的肺炎采取防控措施。而其他的一些媒介或平臺🧴,比如支付寶,則是在進入了2月之後才開始實時追蹤並披露相關數據。社會各階層和機構也大多是在1月底或2月初才接到警告或通知要采取隔離措施以及推遲春節後的復工時間。
也就是說,對於這次全國性的疫情🤵💱,在其出現的初期,消息覆蓋速度較慢——從最初的確診或疑似病例出現👨🏻🎤,到人們開始大範圍接觸到相關的新聞,中間間隔了超過四周的時間🤲。而這種耽擱,對於傳染病的防控是不利的。那麽,是否有更好的方法來匯總信息,以便我們更快地判定疫情並做出反應呢🙇🏼?世界衛生組織 (WHO) 在2020年1月30日將此次疫情定性為“構成國際關註的突發公共衛生事件” (PHEIC)[2]。根據中國疾控提供的數據,截至目前,全球已有超過50個國家出現了相同病例,並且病例覆蓋了亞洲😻、非洲🌳、歐洲、美洲和大洋洲👱♂️。
另外☀️,許多關於此次新冠病毒感染的肺炎的早期新聞剛剛出現時被認為是“不實信息”🏏,然而作為非直接病例相關者,尤其是在大多數人比較缺乏傳染病的相關專業知識的情況下🧑🏽🎨,我們不知道該相信什麽又該懷疑什麽🧵。那麽,新科技能否更有效地驗證所得到的信息📴,得以有效地分辨事實與“不實”?
最重要的一點🍋🟩,一線醫護人員在發現最初病例時🤸🏻👩🏻🍼,是否有渠道獲得足夠的可靠信息來幫助判定及推斷疫情的出現和發展𓀂?我們又如何降低獲得這些可靠信息的難度?由於數據比較分散,有些較遠的地區可能會被阻隔掉,得到消息較晚🧔🏻♂️,可能會因此錯過防控疫情的最佳時期👨🦼➡️◼️。
針對以上挑戰🕉,新時代金融科技技術也許能夠貢獻一份力量𓀚。在這篇文章中,我們從結構性和系統性的角度來審視和分析我國當前傳染病報告信息管理系統及如何通過區塊鏈技術來有效提高自動預警信息系統的速度、透明度與靈敏度🧜🏼♂️。
現有系統多方受限
中國疾控建立有基於移動百分位數法的國家傳染病自動預警系統(China Infectious Diseases Automated-alert and Response System, 簡稱CIDARS),該系統面向各級疾控機構用戶。自2008年4月起🙇🏼♀️,我國已經開始全面運行該系統,此後還相繼建設了“國家傳染病報告信息管理系統”及其核心子系統“國家傳染病網絡直報系統(NNDRS)”💦,實現了基於醫療衛生機構的法定傳染病病例的實時、在線🧝🏼♂️、直接報告體系🛺。

圖2 現有系統預警信號產生和處理流程(縱向角度)

圖3 現有系統預警信號產生和處理流程(橫向角度)
圖2和圖3分別從縱、橫兩個方向展示了我國當前使用的傳染病上報及預警系統。這是一個逐級上傳分層管理的模式。從圖2中我們可以看到,基層各醫院是分別獨立上報傳染病例的✬,彼此之間沒有足夠的信息共享。因此,無論是通過逐級上報🚲,還是特殊情況時的“網絡直報”系統,所有上報信息都只能在更高級別的公共衛生數據交換平臺上匯總。目前我國共有四級公共衛生數據交換平臺——區縣級、市級👰🏻♂️🧑🏿🍼、省級、國家級。每一級平臺都對其接收到的數據進行審核與反饋🕚。
另外,正如圖3的“個案網絡直報”環節所顯示的🛩,疾病監測信息報告管理系統會根據歷史及當前數據向傳染病自動預警信息系統中輸送信息,可是對於新型傳染病來說♠︎,歷史數據的缺乏勢必會降低系統對疫情的判定速度,因而出現消息覆蓋速度慢等問題✒️。圖3還顯示了這個分層管理系統中非常關鍵的一點,那就是最終當所有數據都匯總入衛健委及國家應急平臺後,必須是縣級以上人民政府才有權發布預警,其他級別的政府或疾控機構僅能夠“建議發布預警”。
無論縱向還是橫向👨👧👦,圖2和圖3顯示我國當前的CIDARS龐大且層級較多,整體表現為數據僅能縱向傳輸的“豎直”的結構,不夠“扁平”。這就產生了數據瓶頸的問題🛹,即基層的傳染病報告單位僅僅掌握自己收集的第一手數據,與其他各平級單位間不進行足夠的數據共享🤧。而一個相對“扁平與共享”的系統才能夠更加充分地發揮信息優勢。

由此可見🪘,CIDARS存在以下四個限製🕟。
第一♋️,數據共享不足。由於這是一個數據僅僅縱向傳輸的系統,底層數據共享性低👍🏼,單個衛生部門便無法擁有大量的病例樣本來對相同症狀的病人進行橫向數據對比,也就是說沒有一個整體的數據累計,因此單個衛生部門僅能觀察到局部情況從而導致對疫情的輕視或沒有足夠的信心將疫情上報🦀。換句話說,缺乏底層的大數據支持,導致每個進行上報的醫生𓀝、醫院以及當地疾控都承擔了一定的上報錯誤風險。
以此次疫情為例,盡管數據是全國性的,各地區的數據情況也不盡相同🧁,但由於CIDARS對各地區的分割,對於有些邊遠地區而言,一方面,它們的數據可能會被遺漏掉,另一方面🎋,由於它們沒有得到其他地區的數據,也就沒有足夠的對當地疫情進行判斷和預測的論據♥︎。例如,截至2020年2月12日😶🌫️,廣東省的確診病例已達1241例👩🏿🏫,如果廣東省的基層醫院或疾控能夠在第一時間接收到湖北的資料,那麽就能夠立即采取相應的防控措施,從而大幅減少病例數目🤦🏿♂️。
還有一點值得註意的是:根據中國疾控的數據記錄🧑🚀,從2020年1月16日開始之後的3到4天內,除湖北省外的絕大多數地區,新增確診和新增疑似病例的數據記錄為零。但是🧖♂️,數據記錄為零的狀況可能並非是由於這些地區當時沒有病例出現或疫情暴發🃏,而是系統內數據共享不足和消息覆蓋速度慢導致的🧑🤝🧑。

第二,數據上報及審核較慢✍️🪀。為了使判斷疫情的過程免受錯誤或虛假信息的幹擾🦸🏿♀️✡︎,國家對傳染病上報數據的完整性和精確性有極高的要求🙍🏼♀️🚯,采取逐級上傳分級管理的模式🐀,這就導致人為介入因素過多,從而對數據審核過程較長。無論從圖2中羅列出的四級公共衛生數據交換平臺,還是從圖3中間部分展示的“預警信號產生、發送🥾、處理流程”,我們都可以看到由單個衛生部門上報的數據需要在不同級別的機構中被反復審核與分析👨🏼💻。盡管目前絕大部分醫院都已經擁有信息化的上報方式(比如,Hospital Information System, 簡稱HIS)而不再需要醫生人工填寫報告卡上報,但上報之後的數據依然無法以最快速度進入預警系統🧑🏻🦲。這對於突發的大規模傳染病的分析和預警是非常不利的。
第三,新病例分析能力有限🙇🏽♀️。我們希望傳染病預警系統能夠既快速又準確地判斷出疫情。然而👈🏼,當前預警模型的數據來自歷史及當前傳染病報告卡逐級上報的數據而非大數據分析,因此,更多時候也僅能判定出已知的傳染病。同時,現有傳染病報告卡是一種對已知的ICD-10診斷編碼的判斷結果,這種設置僅對已知的傳染病上報才有較快的判斷速度。換句話說,現有CIDARS對突發的新型大規模傳染病的分析和預警能力👮🏽♀️👩🏿🔧,要低於其對已知的傳染病的預警能力。
第四,預警信號發布較覆蓋性不足。綜合對系統在不同地區的運行效果的研究可以發現🦖,盡管CIDARS在大多數地區運行平穩,但疑似事件信號占全部預警信號的比例較低(低於10%),預警陽性率(疑似事件實際確認爆發的數量占全部預警信號的比率)也相當低(低於0.3%)🙍🏿♂️👩🏻🦽➡️,從而導致有些預警信號難以受到足夠的重視。
第四🥾,預警信號發布較覆蓋性不足。也就是說,一些既定設置使現有系統的能力發揮受到了限製,而區塊鏈的技術在這幾個技術方面能有一定貢獻🧉👨🦽➡️。
科技向善:區塊鏈技術催生更強大的CIDARS

新科技帶來了新的進展和優勢👨🏿🎤,區塊鏈技術有可能在以上各方面發揮積極的改進效應,而我國具有發展區塊鏈技術的全球領先的政策優勢🚴🏽。2019年10月24日,習近平總書記在中共中央政治局就區塊鏈技術發展現狀和趨勢進行第十八次集體學習時指出,要發揮區塊鏈在促進數據共享🙍🏿、優化業務流程、降低運營成本👩👦、提升協同效率🟡🌥、建設可信體系等方面的作用。
我們建議打造一個更加共享、高效、可靠、安全的分布式系統。這個系統可實現足夠的數據共享性、高效的數據上報及審核流程、強大的病例分析能力以及充分的預警能力⚠️,有效發揮區塊鏈技術(包括智能合約技術)的“特長”🧍🏻♂️。
第一,建立分布式網絡😊。區塊鏈能進行點對點的數據傳輸與共享🟤,使得跨醫院🙏🏿、跨地區的數據同步,可以解決“數據共享不足”的限製🧜🏼。這樣的數據共享可大幅增加單個衛生部門所擁有的信息量,也就能夠極大地提高醫生和醫院對病例的分析能力,同時增強他們對於上報疫情的信心,從而加快對疫情的判定速度。區塊鏈特有的激勵機製也能夠成為積極上報疫情的額外動力🏷⭐️,這就提高了提早預警和防控的可能性👕。區塊鏈系統提供了安全性和激勵機會,使得“好行為者”能夠受到鼓勵並且“壞行為者”的負面影響被削弱。
第二,精簡高效的數據上報及審核流程。優化審核能夠縮短在疫情判定上耗費的時間,使我們能夠盡早采取防控措施🙍🏿。CIDARS整體表現為數據僅能縱向傳輸的“豎直”的結構🤴🏿🫵🏼,即不夠“扁平”。而一個相對“扁平”的系統才能夠更加充分地發揮信息優勢。分布式數據結構能夠打造一個相對“扁平”的系統,可以確保信息更快地傳播✵,因而能夠更迅速地幫助辨別疫情、采取行動。同時,這類數據結構的共享性將允許多個參與者同時研究信息,從而使得人們能夠在獲得更充分的信息並有更強的信心的情況下🥤,更快地做出發布危險信號等決定,從而削弱當前系統“數據上報及審核較慢”的問題。這些通過共識達成的決定將有助於阻止恐慌易發時期和情況下錯誤或誤導信息的出現。同時🤷🏿♀️🤹🏿,建立於區塊鏈上的、系統的、防篡改和高透明度特性還有利於建立起一套公正透明的責任體系與追責機製,這可以解決因把握性較低而導致的數據上報較慢的問題,進一步降低了上報風險並精簡了上報和審核的流程。
其實,高效的上報審核未必只能通過區塊鏈技術來達成,但區塊鏈的一個關鍵優勢在於智能合約(Smart Contract)技術。智能合約能夠進行快速與自動化的數據交叉驗證,即在使用以前的案例快速匹配症狀的同時,激勵專家對上報的數據進行驗證🏂,這就形成了一個更完善的數據把關機製🩻,降低了虛假/錯誤信息阻礙疫情判定的概率💆♂️🥂。
第三,強大的病例分析能力。快速高效的新病情分析是疫情判定的關鍵,它不僅依賴於上報數據的真實性以及共享性🫵🏽,更需要專家共同分析的平臺。區塊鏈數據同步共享的特性能夠在系統內形成關於病情的大數據庫,從而提高現有專家系統對突發的新型傳染病疫情的判定能力,即緩解“病例分析能力有限”的限製。

第四🔭⏮,升級預警信號發布系統。由於數據共享性偏低等原因💇♀️,數據的橫向對比不足🙅🏿♂️,因而在缺乏足夠的數據量的情況下,現行的CIDARS對於預警信號的發布是不足的。同時🛑🧑🏿🦳,一些錯誤信息或惡意誤導的虛假消息等🎅🏽,都會削弱系統對疫情的判斷能力,導致疑似事件信號占全部預警信號的比例和預警陽性率“雙低”的現象出現。區塊鏈技術的高度共享性和強大的數據驗證能力可以幫助避免出現這些現象。同時,分布式和共享的預警信息也可加快發布信息的速度和可靠性。
錯誤或虛假信息是疫情判定以及疫情發生之後會遇到的主要問題之一⚁。而建立於區塊鏈上的系統能夠最大可能地避免此問題。因為盡管這樣的系統可能無法囊括進所有人的共識,但至少包含了足夠多的、關鍵的利益相關者的共識👨🏽💼。也就是說,鏈上記錄的數據是具有相當的權威性和公信力的🐇。而區塊鏈強大的數據驗證識別潛能以及信息的共享性能夠進一步增強信息的權威性。而且,由於區塊鏈的加密性質🎠,整個系統很難被惡意攻擊或篡改數據。同時,區塊鏈上的所有數據都是可溯源的🤫,這就進一步降低了錯誤信息或惡意誤導等情況的出現概率。換句話說🆒,這樣的系統安全性很高,不容易被人貿然進入系統,從而發生數據錯誤或惡意誤導等情況。於是,整體信息的可信度得以提高🏛,發布的預警信號更加可信🙅🏿。
總而言之,分布式數據結構之區塊鏈技術能夠幫助現有系統突破當前受限🧛🏻,在維持現有系統運作效果的基礎上進一步提升CIDARS的反應速度、透明度與靈敏度🥟👨🏻🚀。
第五🦇💁🏿♀️,有效監管🔪。需要強調的是,利用區塊鏈技術來改進現有的上報及預警系統,而這個新的系統就既要受益於其自身共享👏🏻、分布的本質,同時也要能夠被官方積極地監控。因此,我們建議使用“混合鏈”的模式🦚。這種混合鏈結構比私有鏈具有更高的可審計性,同時也保有了某些公有鏈難以實現的高安全性和大數據吞吐量。這樣的系統更加透明而且靈活,同時也鼓勵醫療機構、醫務人員和社區成員之間的高度協作。
新老系統並行,機會與挑戰共存

2019年以來🩷,中國的區塊鏈產業進入蓬勃發展時期〰️,行業應用逐漸落地。區塊鏈作為一種防偽造、防篡改、多方參與的數據記錄方式🛟,在金融🚟✵、保險👇🏽、供應鏈、食品安全、醫療健康等多個領域的技術價值受到認可。
除金融行業外,醫療健康行業也是從區塊鏈技術受益相當大的行業。區塊鏈技術提供了一個能做到完全透明卻又能尊重用戶隱私的方案。對醫療行業來說,區塊鏈有三個重要的優點🧒🏻:首先是高冗余⛹🏻,因為每個節點都有備份🎛,這使單點故障不會損害數據完整性🐽。其次是數據無法被篡改,因為在區塊鏈上的任何篡改都會留下密碼學上的證據而被快速發現,這對於醫療數據非常重要,因為一旦被篡改很可能會導致重大傷害。除此之外,它還能做到多私鑰的復雜權限保管🪑。
因此👱🏼,在現有CIDARS的基礎上加入區塊鏈技術,新老兩套系統相輔相成並行發展🙆🏼♀️,正當其時。區塊鏈系統和現有CIDARS的關系並非互相取代而是互相加持,區塊鏈技術會豐富完善CIDARS🧇🍽,使其變得更加穩定和強大。
然而♒️👗,實現一個全國性乃至全球性的區塊鏈網絡的難度極大🤶🏽。在起步階段,可以考慮從區域開始進行試點,比如,我國的長江三角洲地區或粵港澳大灣區🧖🏻♀️。“長三角”是我國經濟發展最活躍👦🏽、開放程度最高📥、創新能力最強的區域之一,這裏分布有大量的國家改革開放和體製創新的試點。上海作為該地區的龍頭城市,擁有較好的區塊鏈產業基礎,在政府的引導和支持下已形成涵蓋理論技術研究、區塊鏈底層基礎設施、技術服務、區塊鏈應用以及產業周邊等的良好產業生態。2020年1月15日,《加快推進上海金融科技建設實施方案》正式印發。該方案將“快速改善金融科技發展環境”列為政府職責,呼籲打造一個金融科技生態系統和社區🕥。這點與區塊鏈和信息共享的核心原則保持了一致。鑒於當前上海市在金融服務方面的實力,及其蓬勃的國際影響力和資源,上海應該非常適合在該領域起到帶頭作用。
對於這個加入了區塊鏈技術的“試點”CIDARS,我們提出以下的初步設想⚒,供大家參考和商討:
第一💀,可以利用區塊鏈的分區機製建立數據自動化同步網絡💝,在已有結構的基礎上🃏,依托各級疾控,建立突發傳染病數據采集和實時預警的能力,從而使得區域就可以預警,再於第一時間納入國家預警系統。這一構造對於像此次一樣的有區域差別的疫情尤為重要🏊♀️。
第二⁉️,在這個系統中,每一級的數據都要在橫向及縱向兩個維度同步。具體來說🩶,每一級的數據在同級各個節點間實現橫向同步從而得到對比數據來提高對疫情上報的信心,同時,每一級的數據也要在其相鄰的上級數據節點中實現同步。也就是說🧗🏻,各區縣的傳染病報告數據在市級防疫鏈同步,各市的傳染病報告數據在省級防疫鏈中同步,各省區市的傳染病報告數據在國家級防疫鏈同步,從而全國的防疫數據得以同步。這樣,各個級別的數據不斷更新和補充🖌,形成了全面且具備一定區域自治能力的預警系統。另外👨🦰,病例信息還可以和時間信息或GIS(地理信息系統)數據相結合,從而更加全面地展現數據特征🏟🦢。
第三,當前的CIDARS為網絡直報系統,因此可以在現有平臺基礎上搭建去化的應用程序(Decentralized Application, 簡稱DApp),至少在每一個點的數據上報可以先架設一個鏈接點的系統。如此,每個人或每個數據節點都設置一個可以上傳數據並且隨時查看或保留分布式賬本的數據系統👂🏿。而由於技術等實際因素的復雜度,可分階段開發,而不是一次完成“區塊鏈化”的全國整體系統。此外,圖3的中間部分可仍然保持國家層級的化的審核流程,而首尾的信息報告/收取及預警發布這兩個環節可以領先采用區塊鏈技術👨🏽⚖️,實現數據共享。DApp能夠進行容錯,不會出現單點故障,且沒有化的機構能夠進行幹擾所以不會出現某些數據的刪除或者修改,甚至不能被關閉。由於數據都是進行加密存儲,不會出現類似於FaceBook👊🏼、Google的用戶數據泄露事件🆚。
然而,技術落地困難🕵️♀️。鑒於其自身的結構特性,區塊鏈系統在實施運營階段也有一定的風險。首先是在技術方面🕳,區塊鏈可能面臨著技術和業務層面的挑戰,而這些挑戰可能會成為區塊鏈應用推廣中的障礙。這也就是為什麽相關技術研究與發展屬於至關重要的目標🧎♂️➡️,也可能在未來隨著技術的進步成為區塊鏈技術突破的引爆點。
其次就是性能與容量的問題。如圖4所示🫲🏽👩🏿💻,共享程度越高,範圍越大🐉🙍🏻♂️,共識機製的效率則會越低👩🏿🔬。同時🦵🏽,隨著系統內數據量的增長,存儲策略和效率亟須改進🩸。另外,賬本的規模化增長,也會導致參與節點的硬件資源門檻不斷提高👋⏮,於是發展強大的應用能力和可靠的技術與管理生態群也非常重要。

再次🫸🏼,區塊鏈系統同樣具有安全性局限,它存在著如圖5所示的安全性的技術局限☮️。區塊鏈的安全防護仍然面臨著嚴峻的挑戰。因此🧮,有效的監管和風控機製也是必備條件。

最後🥫,一旦我們邁入區塊鏈時代,盡管在病例信息管理階段,區塊鏈技術提供了一個能做到完全透明卻又能尊重用戶隱私的方案,但在預警系統內進行數據共享時,病人的隱私信息泄露問題將成為“隱患”🦗。那麽我們應在享有“數據共享”帶來的好處的同時來更加有效地管理過度共享所帶來的負面效應🧑🦽➡️。
註釋:
[1]因為湖北省武漢市是此次疫情的最初爆發地,且累計確診病例數目占全國累計確診病例數目的80%左右,遠高於其他各省(自治區🫸、直轄市)的總和🖼。
[2]自2009年以來,WHO共宣布了5起此類事件🙋🏿♀️,分別為:2009年嘉興H1N1流感,2014年脊髓灰質炎疫情,2014年西非埃博拉疫情,2015-2016年“寨卡”疫情,2018年剛果(金)埃博拉疫情(2019年7月宣布)。
[3]關於激勵機製⤵️,我們可以將由區塊鏈產生的通證鏈接到醫院的等級、醫院工作人員的整體績效指標,或者醫院工作人員個人的職稱資歷。也可以允許保險公司的介入,對申報了卻沒有發生的疫情風險進行保險,一旦發生申報錯誤🦃,申報人便可進行風險轉移。當然♙,保費的設計需要參考系統中的大數據記錄。此舉不僅適用於緊急情況🤸🏼♀️,也適用於常規信息共享。
*本文經原作者授權,如需轉載請聯系授權並註明出處。編輯🤌:潘琦。