2017-07-27
隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)商業(yè)價值的挖掘,用戶的精準定位,大數(shù)據(jù)中蘊藏的巨大商業(yè)價值被逐步挖掘出來,但是同時也帶來了巨大的挑戰(zhàn)--個人隱私信息的保護。個人信息與個人行為(比如位置信息、消費行為、網(wǎng)絡訪問行為)等,這些都是人的隱私,也是我們所關注的一類敏感信息,在大數(shù)據(jù)價值挖掘的基礎上如何保護人的隱私信息,這是每一個大數(shù)據(jù)公司必須解決的問題。
在數(shù)據(jù)安全問題上,隱私數(shù)據(jù)的保護已成為許多監(jiān)管企業(yè)的法規(guī)之一。所謂的隱私數(shù)據(jù)又可稱為敏感數(shù)據(jù),例如:姓名、身份證號碼、地址、電話號碼、銀行賬號、郵箱地址、所屬城市、郵編、密碼類 ( 如賬戶查詢密碼、取款密碼、登錄密碼等 )、組織機構名稱、營業(yè)執(zhí)照號碼、銀行帳號、交易日期、交易金額等。
網(wǎng)絡安全事件頻發(fā)
5月12日晚,WanaCrypt0r
2.0勒索軟件在全球爆發(fā)(簡稱 WCry2.0)。
在無需用戶任何操作的情況下,Wcry2.0即可掃描開放445文件共享端口的Windows機器,從而植入惡意程序。目前,病毒已經擴散至全球上百個國家。全英國上下25家醫(yī)院遭到大范圍攻擊,中國眾多高校也紛紛中招。黑客則通過鎖定電腦文件來勒索用戶交贖金,而且只收比特幣。
近年來,各個國家頻繁暴露出泄露個人隱私信息的事件,在互聯(lián)網(wǎng)時代黑客已經不再是躲在地下室,為了一時的興趣進行破壞,越來越多的黑客正在“商業(yè)化”,愈發(fā)成熟的黑產一次次的證明數(shù)據(jù)的價值。企業(yè)賴以生存的用戶信息都存其數(shù)據(jù)庫內,所以數(shù)據(jù)庫中數(shù)據(jù)的安全事關企業(yè)生死存亡。
在信息化時代,網(wǎng)絡已經深刻地融入了經濟社會生活的各個方面,網(wǎng)絡安全威脅也隨之向經濟社會的各個層面滲透,網(wǎng)絡安全的重要性隨之不斷提高,在這樣的形勢下,我國于2016年11月7日通過了《中華人民共和國網(wǎng)絡安全法》,自2017年6月1日起施行,所以數(shù)據(jù)安全問題尤為重要。
數(shù)據(jù)安全
對于隱私數(shù)據(jù)的保護,個人認為要點在于建立完善的安全機制,包括建立完善的數(shù)據(jù)訪問機制、對關鍵數(shù)據(jù)加密,對敏感數(shù)據(jù)脫敏,多方面系統(tǒng)化解決問題。
A、建立完善的數(shù)據(jù)訪問機制
首先,在網(wǎng)絡層建立嚴格的網(wǎng)絡訪問控制,建立有效的防火墻和白名單機制,對于每一個數(shù)據(jù)產品或服務,只有經過授權的人才能訪問,而對于一切可能的入侵者,將被阻擋在數(shù)據(jù)服務器之外,或者徹底物理隔斷網(wǎng)絡,保證服務器的安全。
其次,建立分級的帳號體系,讓每個數(shù)據(jù)的訪問者只能訪問被允許訪問的數(shù)據(jù),從而有效控制數(shù)據(jù)泄露的風險。
最后,建立嚴格的安全制度,在某個關鍵的信息保密上,建議有兩人共同負責,一人了解原理但不允許直接操作,而另一人有權操作但不了解原理和密鑰,從而大大減少信息泄漏的風險。
B、數(shù)據(jù)加密
通過數(shù)據(jù)加密,即使入侵者侵入了數(shù)據(jù)服務器,也因為數(shù)據(jù)已經加密,而無法解讀,從而大大減少信息泄露的風險
目前常用的數(shù)據(jù)加密方式有:
對稱加密:數(shù)據(jù)發(fā)送方使用密鑰對數(shù)據(jù)加密,使用接收方使用同一密鑰對數(shù)據(jù)進行解密,優(yōu)點是算法成熟,加解密速度快,缺點是密碼為雙方所知,容易泄露;目前最常用的對稱加密算法為DES、IDEA和AES。
非對稱加密:數(shù)據(jù)加解密使用一對配對的公鑰和私鑰來完成,數(shù)據(jù)發(fā)送方使用公鑰對數(shù)據(jù)進行加密,數(shù)據(jù)接受方使用私鑰對數(shù)據(jù)進行解密,該方法的優(yōu)點是解密的私鑰只為數(shù)據(jù)接受方一方所知,信息不容易泄露,目前最常用的非對稱算法為RSA算法。
不可逆加密:一般為hash加密,不需要密鑰,數(shù)據(jù)明文加密后,只要找到原來的明文重新加密后與之比對,若一致則解出,該方法一般適用于兩機構間的合作,一方將自身的數(shù)據(jù)hash加密后供另一方研究,目前常用的hash算法包括md5和sha算法。
C、數(shù)據(jù)脫敏
將生產上的海量數(shù)據(jù)拉到離線的分析環(huán)境進行挖掘分析,
數(shù)據(jù)脫敏是個必然的過程。那么,常用的脫敏方法有那些呢?
名稱 |
描述 |
示例 |
優(yōu)缺點 |
Hiding(隱藏) |
將數(shù)據(jù)替換為常量,常用作不需要該字段 |
2333-->0 433 -->0 |
該字段將沒有可識別性和區(qū)分度,可以直接拋棄 |
Hashing(哈希) |
將不定長數(shù)據(jù)hash成定長字段(不一定一一映射) |
|
有一定的識別性和區(qū)分度,但不嚴謹(非一一映射) |
Mask(掩碼) |
數(shù)據(jù)長度不變,部分用掩碼掩蓋 |
15634323229-->1563423**** |
|
Floor |
將數(shù)值和時間字段按一定規(guī)則取整 |
29-->20 53-->50 2016-12-21 12:30:42 --> 20161221 |
該操作的具體邏輯需根據(jù)具體業(yè)務規(guī)則決定 |
加密 |
使用對稱和非對稱加密,保證一一映射 |
|
能保證數(shù)據(jù)的唯一性,方便統(tǒng)計和關聯(lián),一般會加大數(shù)據(jù)存儲的長度 |
ID轉換 |
對每個不同的數(shù)據(jù)分配不同的id,id可能是整數(shù)或長整數(shù) |
張三-->1 李四-->2 |
能保證數(shù)據(jù)的唯一性,方便統(tǒng)計和關聯(lián),不會加大數(shù)據(jù)存儲的長度,但是對算法的性能和一致性有較高的要求 |
數(shù)據(jù)脫敏具體采用哪種算法,和具體的業(yè)務邏輯相關。一般來說,用戶隱私數(shù)據(jù)保護與挖掘用戶數(shù)據(jù)價值是兩個互相沖突的矛盾體,徹底的數(shù)據(jù)脫敏,抹去全部的用戶隱私信息,將會使得數(shù)據(jù)潛在的分析價值大大降低。另一方面,完全保留用戶隱私數(shù)據(jù)信息,可最大化數(shù)據(jù)的分析價值,但同時導致用戶隱私泄露的風險無法控制。
數(shù)據(jù)安全的目標
大數(shù)據(jù)平臺安全的設計目標并不是實現(xiàn)工具算法用來完全抹去全部的用戶隱私信息,而是包括如下幾個目標:
數(shù)據(jù)泄露風險可控。首先,實現(xiàn)基于大數(shù)據(jù)平臺的脫敏算法庫,可并行,高效的按照脫敏規(guī)則對隱私數(shù)據(jù)進行脫敏。其次,基于數(shù)據(jù)脫敏的理論基礎,建立用戶隱私數(shù)據(jù)泄露風險的衡量模型,可定性定量的準確衡量數(shù)據(jù)可能發(fā)生泄露的風險。
可管理。結合大數(shù)據(jù)平臺的用戶認證體系,權限管理體系,以及隱私數(shù)據(jù)不同保護級別的權限管理體系,實現(xiàn)對隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪問機制。結合公司制度,規(guī)范,法務等管理,實現(xiàn)在盡可能保護用戶隱私數(shù)據(jù),減少數(shù)據(jù)泄露風險的前提下,最大化保留數(shù)據(jù)分析挖掘的價值。
可審計。對數(shù)據(jù)的訪問要保證可回溯,可審計,當發(fā)生數(shù)據(jù)泄露時,要保證能夠通過審計日志找到對應的泄露人員。
聚信立在數(shù)據(jù)安全上所做的工作
聚信立是一家風控數(shù)據(jù)提供商,主要是通過用戶授權獲取非傳統(tǒng)風控數(shù)據(jù),如通話信息、消費數(shù)據(jù)等互聯(lián)網(wǎng)信息,對客戶風險特征進行描述,并提供給金融機構,供其做相應的后續(xù)決策。聚信立服務的金融機構的金融機構超過1300家,包括傳統(tǒng)的銀行、消費金融公司、網(wǎng)貸信息平臺等,目前的日查詢量已經近百萬,覆蓋的人群已經超過8億。
我們在數(shù)據(jù)安全方面所做的工作包括但不限于:
1、完善的數(shù)據(jù)訪問控制機制,通過云桌面、跳板機、防火墻的白名單、以及完善的帳號訪問體系,保證每個員工均能安全的訪問所需的數(shù)據(jù),防范數(shù)據(jù)泄露的風險。
2、數(shù)據(jù)的加密, 對于生產環(huán)境的敏感數(shù)據(jù),我們采用了RSA的非對稱加密方式,公鑰分發(fā)給需要加密敏感數(shù)據(jù)的各個生產線,而私鑰由特定的人員保管,同時,解密的服務由特定的人員開發(fā),然后由不清楚技術細節(jié)的IT人員部署,并使用防火墻的白名單限制訪問IP,從而最大程度的防范安全風險。
3、數(shù)據(jù)脫敏,數(shù)據(jù)分析部門需要大量的數(shù)據(jù)進行建模,這樣如何保證隱私敏感數(shù)據(jù)不被泄露,就是數(shù)據(jù)脫敏所做的工作了。這里我們一方面采用生產環(huán)境采用的RSA加密,另一方面為了減少磁盤和內存存儲,采用了轉ID的方法,將64字節(jié)的加密串轉換為只占4或8個字節(jié)的整數(shù)或長整數(shù)進行處理,同時不需要的敏感數(shù)據(jù)不選取。對于外部機構的聯(lián)合建模,一般會采用hash方式進行匹配,包括md5和sha算法。從而在最大程度上保證用戶的隱私,同時發(fā)掘潛藏在海量數(shù)據(jù)中的巨大價值。