聚信立 | 懂用戶,讓決策恰到好處

活動新聞

在這里，你可以看到聚信立每天發(fā)生的點點滴滴。

大數(shù)據(jù)時代的數(shù)據(jù)安全

2017-07-27

隨著大數(shù)據(jù)時代的到來，大數(shù)據(jù)商業(yè)價值的挖掘，用戶的精準定位，大數(shù)據(jù)中蘊藏的巨大商業(yè)價值被逐步挖掘出來，但是同時也帶來了巨大的挑戰(zhàn)--個人隱私信息的保護。個人信息與個人行為(比如位置信息、消費行為、網(wǎng)絡訪問行為)等，這些都是人的隱私，也是我們所關注的一類敏感信息，在大數(shù)據(jù)價值挖掘的基礎上如何保護人的隱私信息，這是每一個大數(shù)據(jù)公司必須解決的問題。

在數(shù)據(jù)安全問題上，隱私數(shù)據(jù)的保護已成為許多監(jiān)管企業(yè)的法規(guī)之一。所謂的隱私數(shù)據(jù)又可稱為敏感數(shù)據(jù)，例如：姓名、身份證號碼、地址、電話號碼、銀行賬號、郵箱地址、所屬城市、郵編、密碼類 ( 如賬戶查詢密碼、取款密碼、登錄密碼等 )、組織機構名稱、營業(yè)執(zhí)照號碼、銀行帳號、交易日期、交易金額等。

網(wǎng)絡安全事件頻發(fā)
5月12日晚，WanaCrypt0r 2.0勒索軟件在全球爆發(fā)（簡稱 WCry2.0）。在無需用戶任何操作的情況下，Wcry2.0即可掃描開放445文件共享端口的Windows機器，從而植入惡意程序。目前，病毒已經擴散至全球上百個國家。全英國上下25家醫(yī)院遭到大范圍攻擊，中國眾多高校也紛紛中招。黑客則通過鎖定電腦文件來勒索用戶交贖金，而且只收比特幣。

近年來，各個國家頻繁暴露出泄露個人隱私信息的事件，在互聯(lián)網(wǎng)時代黑客已經不再是躲在地下室，為了一時的興趣進行破壞，越來越多的黑客正在“商業(yè)化”，愈發(fā)成熟的黑產一次次的證明數(shù)據(jù)的價值。企業(yè)賴以生存的用戶信息都存其數(shù)據(jù)庫內，所以數(shù)據(jù)庫中數(shù)據(jù)的安全事關企業(yè)生死存亡。

在信息化時代，網(wǎng)絡已經深刻地融入了經濟社會生活的各個方面，網(wǎng)絡安全威脅也隨之向經濟社會的各個層面滲透，網(wǎng)絡安全的重要性隨之不斷提高，在這樣的形勢下，我國于2016年11月7日通過了《中華人民共和國網(wǎng)絡安全法》，自2017年6月1日起施行，所以數(shù)據(jù)安全問題尤為重要。

數(shù)據(jù)安全
對于隱私數(shù)據(jù)的保護，個人認為要點在于建立完善的安全機制，包括建立完善的數(shù)據(jù)訪問機制、對關鍵數(shù)據(jù)加密，對敏感數(shù)據(jù)脫敏，多方面系統(tǒng)化解決問題。

A、建立完善的數(shù)據(jù)訪問機制
首先，在網(wǎng)絡層建立嚴格的網(wǎng)絡訪問控制，建立有效的防火墻和白名單機制，對于每一個數(shù)據(jù)產品或服務，只有經過授權的人才能訪問，而對于一切可能的入侵者，將被阻擋在數(shù)據(jù)服務器之外，或者徹底物理隔斷網(wǎng)絡，保證服務器的安全。

其次，建立分級的帳號體系，讓每個數(shù)據(jù)的訪問者只能訪問被允許訪問的數(shù)據(jù)，從而有效控制數(shù)據(jù)泄露的風險。

最后，建立嚴格的安全制度，在某個關鍵的信息保密上，建議有兩人共同負責，一人了解原理但不允許直接操作，而另一人有權操作但不了解原理和密鑰，從而大大減少信息泄漏的風險。

B、數(shù)據(jù)加密
通過數(shù)據(jù)加密，即使入侵者侵入了數(shù)據(jù)服務器，也因為數(shù)據(jù)已經加密，而無法解讀，從而大大減少信息泄露的風險

目前常用的數(shù)據(jù)加密方式有：
對稱加密：數(shù)據(jù)發(fā)送方使用密鑰對數(shù)據(jù)加密，使用接收方使用同一密鑰對數(shù)據(jù)進行解密，優(yōu)點是算法成熟，加解密速度快，缺點是密碼為雙方所知，容易泄露；目前最常用的對稱加密算法為DES、IDEA和AES。

非對稱加密：數(shù)據(jù)加解密使用一對配對的公鑰和私鑰來完成，數(shù)據(jù)發(fā)送方使用公鑰對數(shù)據(jù)進行加密，數(shù)據(jù)接受方使用私鑰對數(shù)據(jù)進行解密，該方法的優(yōu)點是解密的私鑰只為數(shù)據(jù)接受方一方所知，信息不容易泄露，目前最常用的非對稱算法為RSA算法。

不可逆加密：一般為hash加密，不需要密鑰，數(shù)據(jù)明文加密后，只要找到原來的明文重新加密后與之比對，若一致則解出，該方法一般適用于兩機構間的合作，一方將自身的數(shù)據(jù)hash加密后供另一方研究，目前常用的hash算法包括md5和sha算法。

C、數(shù)據(jù)脫敏
將生產上的海量數(shù)據(jù)拉到離線的分析環(huán)境進行挖掘分析，數(shù)據(jù)脫敏是個必然的過程。那么，常用的脫敏方法有那些呢？

名稱	描述	示例	優(yōu)缺點
Hiding（隱藏）	將數(shù)據(jù)替換為常量，常用作不需要該字段	2333-->0 433 -->0	該字段將沒有可識別性和區(qū)分度，可以直接拋棄
Hashing(哈希）	將不定長數(shù)據(jù)hash成定長字段（不一定一一映射）		有一定的識別性和區(qū)分度，但不嚴謹（非一一映射）
Mask(掩碼）	數(shù)據(jù)長度不變，部分用掩碼掩蓋	15634323229-->1563423****
Floor	將數(shù)值和時間字段按一定規(guī)則取整	29-->20 53-->50 2016-12-21 12:30:42 --> 20161221	該操作的具體邏輯需根據(jù)具體業(yè)務規(guī)則決定
加密	使用對稱和非對稱加密，保證一一映射		能保證數(shù)據(jù)的唯一性，方便統(tǒng)計和關聯(lián)，一般會加大數(shù)據(jù)存儲的長度
ID轉換	對每個不同的數(shù)據(jù)分配不同的id，id可能是整數(shù)或長整數(shù)	張三-->1 李四-->2	能保證數(shù)據(jù)的唯一性，方便統(tǒng)計和關聯(lián)，不會加大數(shù)據(jù)存儲的長度，但是對算法的性能和一致性有較高的要求

數(shù)據(jù)脫敏具體采用哪種算法，和具體的業(yè)務邏輯相關。一般來說，用戶隱私數(shù)據(jù)保護與挖掘用戶數(shù)據(jù)價值是兩個互相沖突的矛盾體，徹底的數(shù)據(jù)脫敏，抹去全部的用戶隱私信息，將會使得數(shù)據(jù)潛在的分析價值大大降低。另一方面，完全保留用戶隱私數(shù)據(jù)信息，可最大化數(shù)據(jù)的分析價值，但同時導致用戶隱私泄露的風險無法控制。

數(shù)據(jù)安全的目標
大數(shù)據(jù)平臺安全的設計目標并不是實現(xiàn)工具算法用來完全抹去全部的用戶隱私信息，而是包括如下幾個目標：

數(shù)據(jù)泄露風險可控。首先，實現(xiàn)基于大數(shù)據(jù)平臺的脫敏算法庫，可并行，高效的按照脫敏規(guī)則對隱私數(shù)據(jù)進行脫敏。其次，基于數(shù)據(jù)脫敏的理論基礎，建立用戶隱私數(shù)據(jù)泄露風險的衡量模型，可定性定量的準確衡量數(shù)據(jù)可能發(fā)生泄露的風險。

可管理。結合大數(shù)據(jù)平臺的用戶認證體系，權限管理體系，以及隱私數(shù)據(jù)不同保護級別的權限管理體系，實現(xiàn)對隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪問機制。結合公司制度，規(guī)范，法務等管理，實現(xiàn)在盡可能保護用戶隱私數(shù)據(jù)，減少數(shù)據(jù)泄露風險的前提下，最大化保留數(shù)據(jù)分析挖掘的價值。

可審計。對數(shù)據(jù)的訪問要保證可回溯，可審計，當發(fā)生數(shù)據(jù)泄露時，要保證能夠通過審計日志找到對應的泄露人員。

聚信立在數(shù)據(jù)安全上所做的工作

聚信立是一家風控數(shù)據(jù)提供商，主要是通過用戶授權獲取非傳統(tǒng)風控數(shù)據(jù)，如通話信息、消費數(shù)據(jù)等互聯(lián)網(wǎng)信息，對客戶風險特征進行描述，并提供給金融機構，供其做相應的后續(xù)決策。聚信立服務的金融機構的金融機構超過1300家，包括傳統(tǒng)的銀行、消費金融公司、網(wǎng)貸信息平臺等，目前的日查詢量已經近百萬，覆蓋的人群已經超過8億。

我們在數(shù)據(jù)安全方面所做的工作包括但不限于：
1、完善的數(shù)據(jù)訪問控制機制，通過云桌面、跳板機、防火墻的白名單、以及完善的帳號訪問體系，保證每個員工均能安全的訪問所需的數(shù)據(jù)，防范數(shù)據(jù)泄露的風險。

2、數(shù)據(jù)的加密，對于生產環(huán)境的敏感數(shù)據(jù)，我們采用了RSA的非對稱加密方式，公鑰分發(fā)給需要加密敏感數(shù)據(jù)的各個生產線，而私鑰由特定的人員保管，同時，解密的服務由特定的人員開發(fā)，然后由不清楚技術細節(jié)的IT人員部署，并使用防火墻的白名單限制訪問IP，從而最大程度的防范安全風險。

3、數(shù)據(jù)脫敏，數(shù)據(jù)分析部門需要大量的數(shù)據(jù)進行建模，這樣如何保證隱私敏感數(shù)據(jù)不被泄露，就是數(shù)據(jù)脫敏所做的工作了。這里我們一方面采用生產環(huán)境采用的RSA加密，另一方面為了減少磁盤和內存存儲，采用了轉ID的方法，將64字節(jié)的加密串轉換為只占4或8個字節(jié)的整數(shù)或長整數(shù)進行處理，同時不需要的敏感數(shù)據(jù)不選取。對于外部機構的聯(lián)合建模，一般會采用hash方式進行匹配，包括md5和sha算法。從而在最大程度上保證用戶的隱私，同時發(fā)掘潛藏在海量數(shù)據(jù)中的巨大價值。