2017-07-27
隨著大數(shù)據(jù)時(shí)代的到來(lái),,大數(shù)據(jù)商業(yè)價(jià)值的挖掘,,用戶(hù)的精準(zhǔn)定位,大數(shù)據(jù)中蘊(yùn)藏的巨大商業(yè)價(jià)值被逐步挖掘出來(lái),,但是同時(shí)也帶來(lái)了巨大的挑戰(zhàn)--個(gè)人隱私信息的保護(hù),。個(gè)人信息與個(gè)人行為(比如位置信息、消費(fèi)行為、網(wǎng)絡(luò)訪問(wèn)行為)等,,這些都是人的隱私,,也是我們所關(guān)注的一類(lèi)敏感信息,在大數(shù)據(jù)價(jià)值挖掘的基礎(chǔ)上如何保護(hù)人的隱私信息,,這是每一個(gè)大數(shù)據(jù)公司必須解決的問(wèn)題,。
在數(shù)據(jù)安全問(wèn)題上,隱私數(shù)據(jù)的保護(hù)已成為許多監(jiān)管企業(yè)的法規(guī)之一,。所謂的隱私數(shù)據(jù)又可稱(chēng)為敏感數(shù)據(jù),,例如:姓名、身份證號(hào)碼,、地址,、電話號(hào)碼、銀行賬號(hào),、郵箱地址,、所屬城市、郵編,、密碼類(lèi) ( 如賬戶(hù)查詢(xún)密碼,、取款密碼、登錄密碼等 ),、組織機(jī)構(gòu)名稱(chēng),、營(yíng)業(yè)執(zhí)照號(hào)碼、銀行帳號(hào),、交易日期,、交易金額等。
網(wǎng)絡(luò)安全事件頻發(fā)
5月12日晚,,WanaCrypt0r
2.0勒索軟件在全球爆發(fā)(簡(jiǎn)稱(chēng) WCry2.0),。
在無(wú)需用戶(hù)任何操作的情況下,Wcry2.0即可掃描開(kāi)放445文件共享端口的Windows機(jī)器,,從而植入惡意程序,。目前,病毒已經(jīng)擴(kuò)散至全球上百個(gè)國(guó)家,。全英國(guó)上下25家醫(yī)院遭到大范圍攻擊,,中國(guó)眾多高校也紛紛中招。黑客則通過(guò)鎖定電腦文件來(lái)勒索用戶(hù)交贖金,,而且只收比特幣,。
近年來(lái),各個(gè)國(guó)家頻繁暴露出泄露個(gè)人隱私信息的事件,,在互聯(lián)網(wǎng)時(shí)代黑客已經(jīng)不再是躲在地下室,,為了一時(shí)的興趣進(jìn)行破壞,,越來(lái)越多的黑客正在“商業(yè)化”,愈發(fā)成熟的黑產(chǎn)一次次的證明數(shù)據(jù)的價(jià)值,。企業(yè)賴(lài)以生存的用戶(hù)信息都存其數(shù)據(jù)庫(kù)內(nèi),,所以數(shù)據(jù)庫(kù)中數(shù)據(jù)的安全事關(guān)企業(yè)生死存亡。
在信息化時(shí)代,,網(wǎng)絡(luò)已經(jīng)深刻地融入了經(jīng)濟(jì)社會(huì)生活的各個(gè)方面,,網(wǎng)絡(luò)安全威脅也隨之向經(jīng)濟(jì)社會(huì)的各個(gè)層面滲透,網(wǎng)絡(luò)安全的重要性隨之不斷提高,,在這樣的形勢(shì)下,,我國(guó)于2016年11月7日通過(guò)了《中華人民共和國(guó)網(wǎng)絡(luò)安全法》,自2017年6月1日起施行,,所以數(shù)據(jù)安全問(wèn)題尤為重要,。
數(shù)據(jù)安全
對(duì)于隱私數(shù)據(jù)的保護(hù),個(gè)人認(rèn)為要點(diǎn)在于建立完善的安全機(jī)制,,包括建立完善的數(shù)據(jù)訪問(wèn)機(jī)制、對(duì)關(guān)鍵數(shù)據(jù)加密,,對(duì)敏感數(shù)據(jù)脫敏,,多方面系統(tǒng)化解決問(wèn)題。
A,、建立完善的數(shù)據(jù)訪問(wèn)機(jī)制
首先,,在網(wǎng)絡(luò)層建立嚴(yán)格的網(wǎng)絡(luò)訪問(wèn)控制,建立有效的防火墻和白名單機(jī)制,,對(duì)于每一個(gè)數(shù)據(jù)產(chǎn)品或服務(wù),,只有經(jīng)過(guò)授權(quán)的人才能訪問(wèn),而對(duì)于一切可能的入侵者,,將被阻擋在數(shù)據(jù)服務(wù)器之外,,或者徹底物理隔斷網(wǎng)絡(luò),保證服務(wù)器的安全,。
其次,,建立分級(jí)的帳號(hào)體系,讓每個(gè)數(shù)據(jù)的訪問(wèn)者只能訪問(wèn)被允許訪問(wèn)的數(shù)據(jù),,從而有效控制數(shù)據(jù)泄露的風(fēng)險(xiǎn),。
最后,建立嚴(yán)格的安全制度,,在某個(gè)關(guān)鍵的信息保密上,,建議有兩人共同負(fù)責(zé),一人了解原理但不允許直接操作,,而另一人有權(quán)操作但不了解原理和密鑰,,從而大大減少信息泄漏的風(fēng)險(xiǎn),。
B、數(shù)據(jù)加密
通過(guò)數(shù)據(jù)加密,,即使入侵者侵入了數(shù)據(jù)服務(wù)器,,也因?yàn)閿?shù)據(jù)已經(jīng)加密,而無(wú)法解讀,,從而大大減少信息泄露的風(fēng)險(xiǎn)
目前常用的數(shù)據(jù)加密方式有:
對(duì)稱(chēng)加密:數(shù)據(jù)發(fā)送方使用密鑰對(duì)數(shù)據(jù)加密,,使用接收方使用同一密鑰對(duì)數(shù)據(jù)進(jìn)行解密,優(yōu)點(diǎn)是算法成熟,,加解密速度快,,缺點(diǎn)是密碼為雙方所知,容易泄露,;目前最常用的對(duì)稱(chēng)加密算法為DES,、IDEA和AES。
非對(duì)稱(chēng)加密:數(shù)據(jù)加解密使用一對(duì)配對(duì)的公鑰和私鑰來(lái)完成,,數(shù)據(jù)發(fā)送方使用公鑰對(duì)數(shù)據(jù)進(jìn)行加密,,數(shù)據(jù)接受方使用私鑰對(duì)數(shù)據(jù)進(jìn)行解密,該方法的優(yōu)點(diǎn)是解密的私鑰只為數(shù)據(jù)接受方一方所知,,信息不容易泄露,,目前最常用的非對(duì)稱(chēng)算法為RSA算法。
不可逆加密:一般為hash加密,,不需要密鑰,,數(shù)據(jù)明文加密后,只要找到原來(lái)的明文重新加密后與之比對(duì),,若一致則解出,,該方法一般適用于兩機(jī)構(gòu)間的合作,一方將自身的數(shù)據(jù)hash加密后供另一方研究,,目前常用的hash算法包括md5和sha算法,。
C、數(shù)據(jù)脫敏
將生產(chǎn)上的海量數(shù)據(jù)拉到離線的分析環(huán)境進(jìn)行挖掘分析,,
數(shù)據(jù)脫敏是個(gè)必然的過(guò)程,。那么,常用的脫敏方法有那些呢,?
名稱(chēng) |
描述 |
示例 |
優(yōu)缺點(diǎn) |
Hiding(隱藏) |
將數(shù)據(jù)替換為常量,,常用作不需要該字段 |
2333-->0 433 -->0 |
該字段將沒(méi)有可識(shí)別性和區(qū)分度,可以直接拋棄 |
Hashing(哈希) |
將不定長(zhǎng)數(shù)據(jù)hash成定長(zhǎng)字段(不一定一一映射) |
|
有一定的識(shí)別性和區(qū)分度,,但不嚴(yán)謹(jǐn)(非一一映射) |
Mask(掩碼) |
數(shù)據(jù)長(zhǎng)度不變,,部分用掩碼掩蓋 |
15634323229-->1563423**** |
|
Floor |
將數(shù)值和時(shí)間字段按一定規(guī)則取整 |
29-->20 53-->50 2016-12-21 12:30:42 --> 20161221 |
該操作的具體邏輯需根據(jù)具體業(yè)務(wù)規(guī)則決定 |
加密 |
使用對(duì)稱(chēng)和非對(duì)稱(chēng)加密,保證一一映射 |
|
能保證數(shù)據(jù)的唯一性,,方便統(tǒng)計(jì)和關(guān)聯(lián),,一般會(huì)加大數(shù)據(jù)存儲(chǔ)的長(zhǎng)度 |
ID轉(zhuǎn)換 |
對(duì)每個(gè)不同的數(shù)據(jù)分配不同的id,,id可能是整數(shù)或長(zhǎng)整數(shù) |
張三-->1 李四-->2 |
能保證數(shù)據(jù)的唯一性,方便統(tǒng)計(jì)和關(guān)聯(lián),,不會(huì)加大數(shù)據(jù)存儲(chǔ)的長(zhǎng)度,,但是對(duì)算法的性能和一致性有較高的要求 |
數(shù)據(jù)脫敏具體采用哪種算法,和具體的業(yè)務(wù)邏輯相關(guān),。一般來(lái)說(shuō),,用戶(hù)隱私數(shù)據(jù)保護(hù)與挖掘用戶(hù)數(shù)據(jù)價(jià)值是兩個(gè)互相沖突的矛盾體,徹底的數(shù)據(jù)脫敏,,抹去全部的用戶(hù)隱私信息,,將會(huì)使得數(shù)據(jù)潛在的分析價(jià)值大大降低。另一方面,,完全保留用戶(hù)隱私數(shù)據(jù)信息,,可最大化數(shù)據(jù)的分析價(jià)值,但同時(shí)導(dǎo)致用戶(hù)隱私泄露的風(fēng)險(xiǎn)無(wú)法控制,。
數(shù)據(jù)安全的目標(biāo)
大數(shù)據(jù)平臺(tái)安全的設(shè)計(jì)目標(biāo)并不是實(shí)現(xiàn)工具算法用來(lái)完全抹去全部的用戶(hù)隱私信息,,而是包括如下幾個(gè)目標(biāo):
數(shù)據(jù)泄露風(fēng)險(xiǎn)可控。首先,,實(shí)現(xiàn)基于大數(shù)據(jù)平臺(tái)的脫敏算法庫(kù),,可并行,高效的按照脫敏規(guī)則對(duì)隱私數(shù)據(jù)進(jìn)行脫敏,。其次,基于數(shù)據(jù)脫敏的理論基礎(chǔ),,建立用戶(hù)隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)的衡量模型,,可定性定量的準(zhǔn)確衡量數(shù)據(jù)可能發(fā)生泄露的風(fēng)險(xiǎn)。
可管理,。結(jié)合大數(shù)據(jù)平臺(tái)的用戶(hù)認(rèn)證體系,,權(quán)限管理體系,以及隱私數(shù)據(jù)不同保護(hù)級(jí)別的權(quán)限管理體系,,實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪問(wèn)機(jī)制,。結(jié)合公司制度,規(guī)范,,法務(wù)等管理,,實(shí)現(xiàn)在盡可能保護(hù)用戶(hù)隱私數(shù)據(jù),減少數(shù)據(jù)泄露風(fēng)險(xiǎn)的前提下,,最大化保留數(shù)據(jù)分析挖掘的價(jià)值,。
可審計(jì)。對(duì)數(shù)據(jù)的訪問(wèn)要保證可回溯,,可審計(jì),,當(dāng)發(fā)生數(shù)據(jù)泄露時(shí),,要保證能夠通過(guò)審計(jì)日志找到對(duì)應(yīng)的泄露人員。
聚信立在數(shù)據(jù)安全上所做的工作
聚信立是一家風(fēng)控?cái)?shù)據(jù)提供商,,主要是通過(guò)用戶(hù)授權(quán)獲取非傳統(tǒng)風(fēng)控?cái)?shù)據(jù),,如通話信息、消費(fèi)數(shù)據(jù)等互聯(lián)網(wǎng)信息,,對(duì)客戶(hù)風(fēng)險(xiǎn)特征進(jìn)行描述,,并提供給金融機(jī)構(gòu),供其做相應(yīng)的后續(xù)決策,。聚信立服務(wù)的金融機(jī)構(gòu)的金融機(jī)構(gòu)超過(guò)1300家,,包括傳統(tǒng)的銀行、消費(fèi)金融公司,、網(wǎng)貸信息平臺(tái)等,,目前的日查詢(xún)量已經(jīng)近百萬(wàn),覆蓋的人群已經(jīng)超過(guò)8億,。
我們?cè)跀?shù)據(jù)安全方面所做的工作包括但不限于:
1,、完善的數(shù)據(jù)訪問(wèn)控制機(jī)制,通過(guò)云桌面,、跳板機(jī),、防火墻的白名單、以及完善的帳號(hào)訪問(wèn)體系,,保證每個(gè)員工均能安全的訪問(wèn)所需的數(shù)據(jù),,防范數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
2,、數(shù)據(jù)的加密,, 對(duì)于生產(chǎn)環(huán)境的敏感數(shù)據(jù),我們采用了RSA的非對(duì)稱(chēng)加密方式,,公鑰分發(fā)給需要加密敏感數(shù)據(jù)的各個(gè)生產(chǎn)線,,而私鑰由特定的人員保管,同時(shí),,解密的服務(wù)由特定的人員開(kāi)發(fā),,然后由不清楚技術(shù)細(xì)節(jié)的IT人員部署,并使用防火墻的白名單限制訪問(wèn)IP,,從而最大程度的防范安全風(fēng)險(xiǎn),。
3、數(shù)據(jù)脫敏,,數(shù)據(jù)分析部門(mén)需要大量的數(shù)據(jù)進(jìn)行建模,,這樣如何保證隱私敏感數(shù)據(jù)不被泄露,就是數(shù)據(jù)脫敏所做的工作了,。這里我們一方面采用生產(chǎn)環(huán)境采用的RSA加密,,另一方面為了減少磁盤(pán)和內(nèi)存存儲(chǔ),,采用了轉(zhuǎn)ID的方法,將64字節(jié)的加密串轉(zhuǎn)換為只占4或8個(gè)字節(jié)的整數(shù)或長(zhǎng)整數(shù)進(jìn)行處理,,同時(shí)不需要的敏感數(shù)據(jù)不選取,。對(duì)于外部機(jī)構(gòu)的聯(lián)合建模,一般會(huì)采用hash方式進(jìn)行匹配,,包括md5和sha算法,。從而在最大程度上保證用戶(hù)的隱私,同時(shí)發(fā)掘潛藏在海量數(shù)據(jù)中的巨大價(jià)值,。