社交網絡數據徵信的作用你猜有多大?

1-1

業內人士分析稱,目前來說,社交網絡數據作為弱變量數據,其在大數據徵信中的作用有限。國內運用人工智能與大數據做徵信的初創企業星橋數據董事長丁卓博士表示:“其實,社交數據徵信在做360度的用戶畫像刻畫中,其作用大概只佔5%-10% 。對於金融行業的評估來說,這些數據不能作為直接的評價參考。”

同時算話徵信CEO蔣慶軍告訴雷鋒網(搜索“雷鋒網”公眾號關注),海量的大數據中和個人信用表現即所謂的Y變量能關聯起來的實際數據是很薄弱的,這種關聯數據不容易獲得,建模的數據也是不夠的,當然更不容易開發出成熟的評估模型。

再者,社交網絡上的數據真實性有多高?我們作為社交網絡的主力軍用戶,深深知道朋友圈、微博、空間的狀態與評論互動大部分實質可歸結為感性的“秀炫曬”,那麼機器根據預先設置的特徵參考提取出信貸機構希望獲取的數據之後,由此而形成結果就是對象的真實用戶畫像了?

去年8月,國外社交巨頭Facebook推出了涉足社交大數據徵信的專利——當一個用戶申請貸款的時候,貸款方會審查該用戶社交網絡好友的信用等級。只有這些好友的平均信用等級達到了最低的信用分要求,貸款方才會繼續處理貸款申請。否則的話,該申請即被拒絕。而在此之前,阿里巴巴旗下螞蟻金服推出的芝麻信用分也在使用人脈關係、消費行為作為評估信用水平的依據。

國內,騰訊徵信總經理鄭浩劍日前也闡述了騰訊對於互聯網徵信建設的探索,該公司主要依靠大數據與人工智能技術,基於旗下微信、QQ等近十億用戶的社交數據來進行徵信工作,通過把結構化數據,文本分類,LBS數據,社交網絡傳播擴散等挖掘之後形成用戶畫像刻畫。

然而國際上似乎還有社交徵信成功的案例。上述的例子中,Facebook的做法因其片面性被《大西洋月刊》評論稱“涉嫌貸款歧視”:有批評人士認為,這項專利重現了歷史上著名的“貸款歧視”做法:“Facebook 想要以你的好友名單為理由拒絕貸款”。這在芝麻信用的人脈應用中也是一樣的道理,但芝麻信用徵集了消費行為數據作為補充,或者其實是後者為主導。

至於騰訊,騰訊合法獲得的用戶數據大多數都是QQ及微信用戶的行為記錄,但這些行為記錄對於徵信的利用價值卻很低。那麼,為了達到評價個人的目的,騰訊也許不得不利用用戶的內容數據,而一旦涉及用戶的交流內容記錄,那就有可能像Facebook那樣被認為觸及到用戶隱私保護的法律問題。

歸其原因:社交數據是弱變量弱相關

“實際上,對於根據社交數據分析出的結果,我們只能將其作為整個信用報告的補充,因為消費者在社交網絡上的關係只是松耦合,而不像是在企業機構中形成的緊耦合關係,”丁卓解釋道,在企業中每個人的薪酬、流水等都是確信的,但在社交網絡上,內容都是隨性的。“所以,社交網絡分析只能作為徵信對像在基礎數據、深度數據以外的餘信數據補充。”

在數據類型中,數據可以被分為強變量數據,即信貸、信用卡、社保、工商等來源於傳統金融機構和政府機構的信息;和商品生產、流通、消費等環節產生的中變量交易數據,以及社交、遊戲等弱變量數據。

“在14000個數據源、70萬個來自於不同維度的數據變量中,我們結合金融機構的業務邏輯,分析變量的相關性係數,統計出其中從強到弱遞減的變量關係,而社交網絡數據明顯屬於弱相關變量。” 星橋數據的核心團隊當中,有12名計算機科學與金融學領域的博士,27名碩士,其首席數據科學家、肯塔基大學計算機博士林振民與團隊一起,對數據變量的係數進行了數年的研究。

最重要的是,NLP(自然語言處理)仍然是個世界級難題,Google、微軟也沒有很好的解決方案。所以,目前的機器學習對於社交數據的處理準確度並沒有很高。如果有好的解決方案,意味著整個遷移學習、機器學習領域都會有一些質的進展,同樣,目前利用機器學習、人工智能進行的大數據徵信和風控也會隨之獲得進步。

大數據徵信還需在強、中變量著手

丁卓博士坦言,如今360度刻畫中,FICO模型的作用仍占到50%左右,而剩下約45%的部分,則有賴於徵信對象的交易行為數據來完成。丁卓介紹,傳統金融機構對客戶的信用評級一般依靠FICO模型,但這套模型在信貸、信用卡、外匯、民間借貸等強變量金融交易數據的基礎上才適用,“在下沉到年輕用戶和小微企業等客戶的過程中,FICO就有很多需要改善的地方。”

這也是星橋付出極大的代價去對接京東、阿里巴巴、百度等互聯網平台數據,打破數據隔離和信息孤島的原因。丁博士透露,在談判的過程中,能夠通過第三方中立機構間接實現與其他大公司的數據資源共享,是他們彼此合作的支撐。“大數據的意義在於,能夠通過機器學習、語義分析等技術,把海量數據的相關性計算出來,連接起來進行動態分析。”

星橋的客戶包括工商銀行、招商銀行,據丁卓透露:“目前來說,銀行的信貸客戶以大型企業為主,但事實上他們也有獲取新客戶方面的擔憂。因為從長遠可持續發展來看,他們也要獲取更多小微型企業(供應鏈金融)以及年輕用戶群體(消費金融)等的客戶。通過合作我們了解到,很多銀行也想開展普惠金融業務。但由於對這部分客戶掌握的信息較少,他們不知道怎麼做。他們不了解普惠金融的客戶群的特徵,也不知道應該如何判斷這部分客戶的信用評級,因而不敢貿然開展。”

所以,在科技推動金融的發展背景下,適用於大型企業的FICO也需要有一個標準再適應市場的過程。面向年輕用戶和小微企業等建立更符合他們特徵的模型,這是未來五年內,銀行與徵信機構必須要做的事情。

 

參考資料

http://www.leiphone.com/news/201609/HbVtLMIut1jOAUK9.html