追溯至1980 年,著名未來學家阿爾文· 托夫勒曾在著作《第三次浪潮》中,熱情地贊頌了大數據將成為繼工業革命、數字信息之后的第三次浪潮。直到2008年末,蘭道爾·布萊恩特、蘭迪·卡茲、愛德華·拉佐斯加在《大數據計算:在商務、科學和社會領域創建革命性突破》中探討了大數據應用的可能。更進一步講,IBM在2012年發布了白皮書《分析:大數據在現實世界中的應用》,其在高德納分析員道格·萊尼3V理論的基礎上,重新定義了大數據的4V應用理論,并在發布會上大膽預言。
2011年2月17日,全世界記住了IBM的沃森計算機系統。其在智力競賽節目《Jeopardy》(危險)中打敗了兩名人類挑戰者,計算機科學家們認為這是大數據超級計算能力的勝利。自此以后,大數據正式開啟產業應用的先河,短短幾年間席卷了金融、科技、政府、教育、醫療等多個領域。其中, 金融作為一個以數字體現價值的典型行業,大數據技術已經廣泛應用于金融的多個領域,比如風險控制、客戶管理、精準營銷和產品服務創新等。
金融領域的應用
眾所周知,大數據技術在風險控制領域的應用是非常廣泛的。大數據風控在金融領域的應用,根據風險類型的不同會有所差異,如申請欺詐風險、交易欺詐風險、支付欺詐風險、信用風險、合規風險、市場風險、套現風險和洗錢風險等。筆者將從最重要的兩類風險:欺詐和信用來進行探討。反欺詐主要是通過身份核驗、黑名單排查來解決:1數據真實性;2還款意愿問題。征信主要是對還款能力和還款意愿的一種判斷。
舉例來說,JPMorgan是較早采用金融大數據風險控制解決方案的投資銀行。其反欺詐和信用風控的原理是基于事件驅動型的實時欺詐檢測和信用風險監管。
在信息采集方面,客戶的數據大部分來源于線下業務系統累積的結構化數據,小部分數據是在Facebook和Twitter等社交網站上采集的半結構化或非結構化數據。比如文本、視頻等。經過數據交換平臺和Hadoop分布式系統的集中處理后,JPMorgan的金融大數據系統會將統一格式化后的數據存儲在數據倉庫。
在實時欺詐風控方面,JPMorgan基于客戶的360度畫像進行反欺詐和反作弊的實時監控。首先,采取線上結合線下的方式對客戶的身份進行交叉檢驗。例如,通過FICO評分,選取評分低于650分的客戶群進行線下調查。從很大程度上,規避了個人或團伙的申請欺詐。另外,JPMorgan的反欺詐平臺會利用數據挖掘、機器學習等技術,隨機從消費歷史數據庫的欺詐消費記錄中,提取出具備相同特征的欺詐模式,對下一次新的消費行為進行預測和分析。每當發現新的欺詐行為后,系統會立即進行匹配檢測,判斷欺詐類型是交易欺詐、支付欺詐亦或是其他類型的欺詐,若與系統原有欺詐模式不同,則將此全新的欺詐行為記錄到反欺詐模型中。
在信用風險控制方面,JPMorgan重點考察客戶的還款能力和還款意愿。其利用logistic回歸修正模型來預測借款者的還款能力。模型主要對客戶的資產、負債、未來收入和成本的現金流等特征進行量化價值評估。JPMorgan對客戶還款意愿強弱的考察主要是基于客戶的事件信息和相似客戶行為來進行分析。形象來說,杰克近期中了500萬彩票大獎,中獎事件信息的觸發會增強李三的還款意愿。湯姆和吉姆是好朋友,經常一起出入同一餐廳(按美國習慣同時使用各自信用卡分攤帳單),從湯姆還款的頻率和額度可以從很大程度上預測吉姆的還款意愿的強弱。
其他領域的應用
如今,全世界的一半以上的人口生活在城市中。隨著城市人口的劇增,如何精細化管理人口、資源如何平衡配置和如何打造智慧城市成為了各國政府亟待解決的難題。
大數據作為一項新型信息挖掘和處理技術,對智慧城市的建設提供了有效的解決方案。一個大數據技術比較典型的應用是在智慧交通領域,現階段,錯綜復雜的城市道路,可以通過GPS和攝像頭數據來進行規劃設計。包括道路紅綠燈的時間間隔、事故預防調查和道路攝像頭的關聯控制等。例如,大數據服務提供商Teradata曾經幫助西班牙交通總署實現大數據交通事故調查,不僅大幅降低了事故調查的人力、財力資源,而且從交通事故源頭上有效減小了事故發生概率。
近年來,大數據風控技術在各個應用領域的發展速度令人目不暇接。然而,從另一個方面,其有效性也受到了非常大的挑戰。陳宇2015年在《風吹江南之互聯網金融》中提出了大數據風控無效論。筆者認為,大數據是有效的,但其有效性不足。
具體如近期特別關注的P2P平臺。自2007年我國誕生第一家P2P平臺起,P2P平臺頻頻暴露出跑路、停業、提現困難和經偵介入等問題。目前,大部分P2P平臺均宣稱,自家平臺是采用先進的大數據風控技術,嚴進嚴出,基本能保障不良貸款率在P2P行業較低的水平。然而,P2P行業的風控現狀卻總是事與愿違。根據網貸之家發布的《2015年P2P網貸行業年報》顯示,2015年全國正常運營的P2P平臺總數2595家,累積停業及問題平臺數量高達896家,占比34.53%。問題平臺總數高達2014年的3.26倍。因此,P2P風控之殤從一個側面反映出大數據風險控制存在有效性不足的問題。
有效性問題的提出
在數據來源方面,數據孤島仍然是制約我國金融信貸行業發展的重要因素。目前,政府、銀行、券商、互聯網企業和第三方征信公司掌握的信息資產難以在短時間內互聯互通。正如吳昊(2015)所說一樣,信息孤島導致了信息不對稱、不透明,帶來了大量的多頭債務風險和欺詐風險。由此得知,金融信貸行業若想利用大數據風控技術大力提升風控水平,就必須打破信息孤島,解決信息不對稱和信息獲取不及時的問題。
在數據質量方面,數據缺乏有效性是數據質量不佳的主要因素,也直接導致了大數據風控有效性的不足。近些年,金融機構、電子商務、社交網絡、公共政務、OTO互聯網平臺等數據體猶如一臺永不停歇的機器一般,源源不斷地制造著每天2EB級別的海量數據。然而,數據格式多樣化、數據形式碎片化、有效數據缺失和數據內容不完整等問題也隨之而來。因此,改善數據質量,提升有效性成為大數據風控水平提高的必備環節。在數據采集和使用的制度建設方面,保護個人或企業隱私,一直都是我國政府制度建設的一個重大方向。如何合法地、適度地、有效地采集和使用大數據?這不僅僅是一個技術實現的問題,更是一個社會進步的問題。近年來,數據泄露事件頻頻出現,也成為了各大媒體爭相報道的新聞頭條和人們老生常談的熱點話題。
有效性問題的分析
縱觀大數據風控有效性不足的三大因素,數據孤島是當務之急。首先,公共設施、生活繳費、社會保險、交通路況、教育醫療等政務數據,依然掌握在相關政府部門數據庫,尚未向社會公開,甚至可以說,政府部門內部都未進行共享。目前,雖然工商、司法、公益等信息已經向全社會開放,但是公共政務信息的開放程度仍然較低。況且,政府部門信息的公開必將是一個漫長且復雜的過程。其次,銀行、券商、基金和信托等傳統金融機構長期形成的合規文化氛圍,主導著各項業務的規范發展,因而設計了諸多制約環節和監控措施。以至于傳統金融機構的數據開放流程變得異常繁瑣和低效。再者,掌握著大量真實信息的互聯網企業、第三方征信公司和O2O平臺之間也難以達到互聯互通的程度。電子商務、社交網絡、地理位置、信用評估、搜索發動機、移動互聯網行為等大數據交叉集中于阿里巴巴、騰訊、百度、、九次方等企業。自IBM公布首例大數據商業案例以來,大數據技術在世界范圍內得到快速普及。數據即價值,由此深深地根植于每一個現代企業的發展理念中,這些企業都希望抓住第三次技術浪潮的時代機遇。因為在其跑馬圈地的過程中,互相之間存在激烈的競爭關系,所以大數據互聯互通的目標目前看來難以實現。
從互聯網金融元年開始的短短三年間,網絡安全事件層出不窮,網絡數據真實性再次被提及。王強(2015)認為,大數據時代的數據基本是垃圾進垃圾出,真實度可能只有50%。企業家和學者對數據真實性的擔憂不是空穴來風,銀行、P2P等機構都遭遇過嚴重的金融欺詐事件。比如,2015年,我國商業銀行頻現身份冒用、盜卡交易和頻繁套現等安全事件。毋庸置疑,視風險為第一要務的商業銀行仍然是大數據真實性最高的機構。然而,商業銀行仍然會遭受上述風險。其中,金融基礎設施不完善是最直接的一個因素。具體舉例來說,在身份驗證方面,一個自然人或企業很有可能會開通各個商業銀行、第三方支付、P2P網絡借貸、小額貸款等賬戶。商業銀行通過央行征信系統來對客戶在其他銀行的表現進行風險識別和風險定價,對于第三方支付、P2P網絡借貸和小額貸款等公司的賬戶數據,商業銀行由于缺乏外部大數據采集能力和意識,并不能及時和輕易地獲取。因此,客戶除商業銀行之外,在其他信貸渠道引發的信用風險,勢必會疊加到商業銀行的信貸風險中。
與此同時,網絡安全事件也帶來了嚴重的數據泄露風險。從國際數據泄露情況來看,Verizon發布的報告《Data Breach Investigations Report 2015》顯示,全球調研覆蓋95個國家,61個報告了數據泄露問題,共涉及79790個安全事件,損失高達數千億美金。從國內來看,國內專業的互聯網安全平臺360發布的《2015年中國互聯網安全報告》顯示,共有1410個漏洞可能造成網站上的個人信息泄露,可能泄露的個人信息量高達55.3億條。
總而言之,若想提升大數據風控的有效性,就必須解決數據孤島、數據低質、數據泄露的問題。
與其說大數據風控是無效的,不如說大數據風控尚處于初級階段。在這個階段,大數據風控有效性的提升需要以探索的方式解決數據孤島、數據低質、數據泄露三個方面的問題。從而對我國原有過度中心化、同質化的風控體系進行升級換血,避免系統性風險帶給我們的巨大危害。
在現有大數據風控模式優化的長期過程中,政府監管部門、傳統金融機構、互聯網企業、第三方征信公司、OTO平臺將扮演不可或缺的角色。其中,政府監管部門的作用尤為重要。比如數據孤島的打破,得益于政府監管部門積極的征集多方意見,制定公正嚴明的法律法規或行業規則,倡導多方加入到信息共享、數據互通的行列。因此,大數據風控有效性的提升,筆者認為,應該從以下三個方面來思考:
倡導數據互聯互通解決數據孤島問題
目前,數據孤島是大數據風控體系建設過程中資源集成的最大障礙。各個機構和企業在拓展業務的同時,積累了海量的數據信息。但由于各個系統之間缺乏信息共享機制,導致形成了大量的數據孤島,不利于我國信用基礎數據庫的建設。
倡導數據互聯互通能有效地打破數據孤島,然而,真正實現互聯互通的目標,必須經歷漫長的過程。回顧國際上發達國家的信息互通的歷程,作為世界金融中心的美國,其信用大數據的開放方式是值得借鑒的。美國最初的數據開放源自于民眾對信用數據知情權的訴求。1953年至今,從最早的《信息自由法》到美國總統奧巴馬推動數據的開放運動,已經從國內成功地推廣到了由美國、英國、墨西哥等8個國家發起成立的數據開放政府聯盟(OGP)。
從國內來看,我國在數據開放水平上進步顯著,近幾年提出了很多創新舉措。2015年8月31日,國務院印發了《促進大數據發展行動綱要》,正式將大數據戰略定位為國家層面的創新戰略。在這份綱要中,提出了 2017 年底前,我國跨部門數據資源的內部共享格局將形成。2018 年底前,將建成我國政府數據統一開放平臺。2020年底前,我國將逐步實現金融、信用、企業登記監管、交通、醫療、教育、氣象等民生保障服務相關領域的政府數據集向社會開放。
對地方政府而言,我國50個省市在貴陽市政府、貴陽大數據交易所的推動下,將共同發起中國城市大數據產業發展聯盟,并于2016年5月27日在貴陽揭牌。中國城市大數據產業發展聯盟的成立,不僅從很大程度上推動城市之間的信息共享、數據互通,全面激活大數據價值,而且有助于提升政府行政效率,提升科學決策能力。例如,而且將積極推動政府數據公開,打通部門壁壘、提高行政效率,提升政府治理能力,引領政府職能轉型。舉例來說,農產品的核心問題是合理種植或養殖農產品,正如郭文利,權維俊,劉洪2010年在《精細化農業氣候區劃業務流程初步設計》中所言一樣,農業氣候區劃是農民種植好農產品的決定性因素之一。 所以說,根據已有的氣候、土質、病蟲災害、循環生長等信息,借助于大數據風控技術形成的生長趨勢和消費情況報告,對農牧業的精細化生產尤為重要。隨著政府數據的共享,農業部門通過氣象部門的實時氣候大數據預測,可以幫助農民完成科學種植。對企業而言,2015年1月,中國人民銀行印發了《關于做好個人征信業務準備工作的通知》。通知要求芝麻信用、拉卡拉信用和騰訊征信等八家機構做好個人征信業務的準備工作,具體來說,截止到2015年末,央行個人征信系統共收錄8.8億自然人數,其中3.8億人有信貸記錄,企業征信系統收錄企業及其他組織2120萬戶,其中577萬戶有信貸記錄。數據量的爆炸式增長,反映了政府監管部門、金融機構和企業之間已經開始進行大數據的分享嘗試。由此,拉開了大數據交叉互通的序幕。
增強數據檢驗能力提高數據質量和可靠性
伴隨著數據采集渠道的日益拓展,通過交叉檢驗、生物識別和機器學習等技術來解決數據低質的問題顯得迫在眉睫。
據悉,目前貸款包裝、組團欺詐、賬戶造假等情況屢見不鮮。尤其在信用貸款領域,欺詐占了60%的比例,大部分采用身份造假和資料包裝。其中,在實名場景欺詐層面,大數據風控模式需要對身份冒用、虛假信息和不良歷史進行風險識別;在非實名場景欺詐層面,大數據風控模式需要警惕虛假注冊、惡意搶購、買賣串通和營銷作弊等手段。面對互聯網金融在中國的爆炸式增長,商業銀行等信貸機構缺乏外部大數據的采集意識和技術。舉例來說,一家創業企業在銀行成功獲得授信額度為50萬、為期1年的人民幣貸款。這家企業同時在多家小型P2P企業獲得多筆小額貸款,為了在銀行獲得更高的信用額度,其利用商業銀行、P2P企業之間信息不對稱的機會,將P2P借款還給銀行,以獲得銀行的第二筆額度更高的貸款。如此循環,這種“類旁氏欺詐”并不會被銀行和P2P覺察。然而,隨著我國大數據開放程度的日益擴大,交叉檢驗等技術的日趨成熟,“類旁氏欺詐”的真實面目將會暴露無遺。
另外,現存的大量人工審核工作將會被智能審核技術所取代。比如第三方征信機構——芝麻信用積極地尋求外部合作,打通公安、工商、法院部分數據接口。擁有著豐富的內外部大數據,數據種類涵蓋衣食住行、生活繳費、投資理財、轉賬支付、社會公益等數百種生活場景數據。與此同時,螞蟻金服借助芝麻信用公司的信用大數據,利用機器學習、視頻對話和笑臉掃描等先進技術手段,對內外部大數據進行交叉檢驗,有效快速地進行風險識別和定價。借款人從申請到授信,只需要7分鐘。
推動數據安全相關制度的建設防范數據非法泄露
無疑,數據泄露是大數據時代不能忽視的一個風險來源。1997年以后,互聯網在中國飛速發展,我國逐漸進入信息化社會,民眾的衣食住行現在已經和互聯網緊密地聯系在了一起。由此,數據安全已經上升到與國家、社會、個人息息相關的問題。對于國家而言,繼國防安全、金融安全之后,數據安全已經上升至第一安全的位置;對于社會而言,數據安全成為了信用倫理體系健康建設的重要一環;對于個人而言,如果不能保障數據安全,那么個人隱私信息將無法保全,隨之而來的是整個社會的信用風險的爆發。
我國在數據安全立法起步較晚,但是進展神速。2013年11月12日正式成立國家安全委員會。2014年我國在2013年11月12日正式成立國家安全委員會,并在2014年2月27日成立中共中央網絡安全和信息化領導小組辦公室,由習近平總書記任組長,這意味著信息安全正式提升到國家戰略高度。2014年8月28日,工信部發布《工業和信息化部關于加強電信和互聯網行業網絡安全工作指導意見》,提出完善網絡安全保障體系的總體目標。到了2015年6月24日,民眾最為期待的《網絡安全法》草案進入人大常委審議階段,2015年8月5日意見征求結束,立法進入最后階段,正式推出在望。《網絡安全法》將從保障網絡數據安全和保障網絡信息安全等方面進行了具體的制度設計,這對于大數據風控有效性的提升,是最大的利好。
在數據安全意識方面,難能可貴地是,2012年的達沃斯世界經濟論壇上,就一致決定將數據納入到新的經濟資產類別。我國學者劉玉在《淺論大數據資產的確認與計量》中探討了數據作為一種經濟資產的會計計量方法。
綜上所述,伴隨著政府監管部門、傳統金融機構和互聯網企業等各級組織的共同努力,可視化立體信用體系的確立和完備制度的建設,數據將不再孤立,大數據風控有效性不足的問題也將迎刃而解。
銀行與金融科技融合的理想境界是什么?是銀行即服務。
2019年6月14日,億歐智庫研究院將在“2019丨全球新經濟年會·金融科技峰會”上發布《2019開放銀行與金融科技發展研究報告》,深度解讀金融科技賦能開放銀行的融合與落地應用——上海·虹橋·世貿展館邀您見證!搶票鏈接:https://www.iyiou.com/post/ad/id/818