Што такое тэхналогія і рашэнне для маскіроўкі дадзеных у Network Packet Broker?

1. Канцэпцыя маскіроўкі дадзеных

Маскіраванне дадзеных таксама вядома як маскіроўка дадзеных. Гэта тэхнічны метад пераўтварэння, змены або схавання канфідэнцыйных дадзеных, такіх як нумар мабільнага тэлефона, нумар банкаўскай карты і іншая інфармацыя, калі ў нас ёсць правілы і палітыкі маскіроўкі. Гэты метад у асноўным выкарыстоўваецца для прадухілення выкарыстання канфідэнцыйных дадзеных непасрэдна ў ненадзейных асяроддзях.

Прынцып маскіроўкі дадзеных: маскіроўка дадзеных павінна захоўваць зыходныя характарыстыкі дадзеных, бізнес-правілы і актуальнасць дадзеных, каб гарантаваць, што наступная распрацоўка, тэставанне і аналіз дадзеных не будуць пацярпець ад маскіроўкі. Забяспечце адпаведнасць і валіднасць дадзеных да і пасля маскіроўкі.

2. Класіфікацыя маскіроўкі дадзеных

Маскіроўку дадзеных можна падзяліць на статычную маскіроўку дадзеных (SDM) і дынамічную маскіроўку дадзеных (DDM).

Статычная маскіроўка дадзеных (SDM)Статычная маскіроўка дадзеных патрабуе стварэння новай базы дадзеных непрадукцыйнага асяроддзя для ізаляцыі ад вытворчага асяроддзя. Канфідэнцыйныя дадзеныя здабываюцца з вытворчай базы дадзеных, а затым захоўваюцца ў невытворчай базе дадзеных. Такім чынам, дэсенсібілізаваныя дадзеныя ізалююцца ад вытворчага асяроддзя, што адпавядае патрэбам бізнесу і забяспечвае бяспеку вытворчых дадзеных.

СДМ

Дынамічнае маскіраванне дадзеных (DDM)Звычайна выкарыстоўваецца ў вытворчым асяроддзі для зніжэння адчувальнасці канфідэнцыйных дадзеных у рэжыме рэальнага часу. Часам для чытання адных і тых жа канфідэнцыйных дадзеных у розных сітуацыях патрабуюцца розныя ўзроўні маскіроўкі. Напрыклад, розныя ролі і дазволы могуць рэалізоўваць розныя схемы маскіроўкі.

ДДМ

Прыкладанне для маскіроўкі справаздачнасці па дадзеных і прадуктаў дадзеных

Такія сцэнарыі ў асноўным уключаюць унутраныя прадукты маніторынгу дадзеных або рэкламныя шчыты, знешнія прадукты дадзеных паслуг і справаздачы, заснаваныя на аналізе дадзеных, такія як бізнес-справаздачы і агляд праектаў.

маскіроўка прадукту справаздачнасці

3. Рашэнне для маскіроўкі дадзеных

Распаўсюджаныя схемы маскіроўкі дадзеных ўключаюць: ануляванне, выпадковае значэнне, замену дадзеных, сіметрычнае шыфраванне, сярэдняе значэнне, зрушэнне і акругленне і г.д.

АнуляваннеАнуляванне азначае шыфраванне, скарачэнне або хаванне канфідэнцыйных дадзеных. Гэтая схема звычайна замяняе рэальныя дадзеныя спецыяльнымі сімваламі (напрыклад, *). Аперацыя простая, але карыстальнікі не могуць ведаць фармат зыходных дадзеных, што можа паўплываць на наступныя праграмы працы з дадзенымі.

Выпадковае значэннеВыпадковае значэнне адносіцца да выпадковай замены канфідэнцыйных дадзеных (лічбы замяняюць лічбы, літары замяняюць літары, а сімвалы замяняюць сімвалы). Гэты метад маскіроўкі забяспечвае фарматаванне канфідэнцыйных дадзеных у пэўнай ступені і спрашчае наступнае прымяненне дадзеных. Для некаторых значных слоў, такіх як імёны людзей і месцаў, могуць спатрэбіцца слоўнікі маскіроўкі.

Замена дадзеныхЗамена дадзеных падобная да маскіроўкі нулявых і выпадковых значэнняў, за выключэннем таго, што замест выкарыстання спецыяльных сімвалаў або выпадковых значэнняў маскіруючыя дадзеныя замяняюцца пэўным значэннем.

Сіметрычнае шыфраваннеСіметрычнае шыфраванне — гэта спецыяльны метад зварачальнай маскіроўкі. Ён шыфруе канфідэнцыйныя дадзеныя з дапамогай ключоў і алгарытмаў шыфравання. Фармат шыфраванага тэксту адпавядае зыходным дадзеным у лагічных правілах.

СярэдніСхема сярэдняга значэння часта выкарыстоўваецца ў статыстычных сцэнарах. Для лікавых дадзеных мы спачатку вылічваем іх сярэдняе значэнне, а затым выпадковым чынам размяркоўваем дэсенсібілізаваныя значэнні вакол сярэдняга значэння, тым самым захоўваючы суму дадзеных пастаяннай.

Зрушэнне і акругленнеГэты метад змяняе лічбавыя дадзеныя шляхам выпадковага зрушэння. Акругленне са зрушэннем забяспечвае прыблізную сапраўднасць дыяпазону, захоўваючы пры гэтым бяспеку дадзеных, якія бліжэй да рэальных дадзеных, чым папярэднія схемы, і маюць вялікае значэнне ў сцэнарыі аналізу вялікіх дадзеных.

ML-NPB-5660-数据脱敏

Рэкамендаваная мадэль "ML-NPB-5660для маскіроўкі дадзеных

4. Часта выкарыстоўваныя метады маскіроўкі дадзеных

(1). Статыстычныя метады

Выбарка дадзеных і агрэгацыя дадзеных

- Выбарка дадзеных: аналіз і ацэнка зыходнага набору дадзеных шляхам выбару рэпрэзентатыўнага падмноства набору дадзеных з'яўляецца важным метадам павышэння эфектыўнасці метадаў дэідэнтыфікацыі.

- Агрэгацыя дадзеных: як сукупнасць статыстычных метадаў (такіх як сумаванне, падлік, сярэдняе значэнне, максімум і мінімум), ужытых да атрыбутаў у мікрададзеных, вынік з'яўляецца прадстаўнічым для ўсіх запісаў у зыходным наборы дадзеных.

(2). Крыптаграфія

Крыптаграфія — распаўсюджаны метад дэсенсібілізацыі або павышэння эфектыўнасці дэсенсібілізацыі. Розныя тыпы алгарытмаў шыфравання могуць дасягнуць розных эфектаў дэсенсібілізацыі.

- Дэтэрмінаванае шыфраванне: невыпадковае сіметрычнае шыфраванне. Звычайна яно апрацоўвае ідэнтыфікацыйныя дадзеныя і можа расшыфраваць і аднавіць зашыфраваны тэкст да зыходнага ідэнтыфікатара пры неабходнасці, але ключ павінен быць належным чынам абаронены.

- Незваротнае шыфраванне: для апрацоўкі дадзеных выкарыстоўваецца хэш-функцыя, якая звычайна выкарыстоўваецца для ідэнтыфікацыйных дадзеных. Яе нельга непасрэдна расшыфраваць, і сувязь адлюстравання павінна быць захавана. Акрамя таго, з-за асаблівасцей хэш-функцыі могуць узнікнуць канфлікты дадзеных.

- Гамаморфнае шыфраванне: выкарыстоўваецца гамаморфны алгарытм шыфраванага тэксту. Яго асаблівасць заключаецца ў тым, што вынік аперацыі з шыфраваным тэкстам такі ж, як і вынік аперацыі з адкрытым тэкстам пасля расшыфроўкі. Таму ён звычайна выкарыстоўваецца для апрацоўкі лікавых палёў, але не шырока выкарыстоўваецца з меркаванняў прадукцыйнасці.

(3). Сістэмныя тэхналогіі

Тэхналогія падаўлення выдаляе або хавае элементы дадзеных, якія не адпавядаюць патрабаванням абароны прыватнасці, але не публікуе іх.

- Маскіроўка: гэта найбольш распаўсюджаны метад дэсенсібілізацыі для маскіроўкі значэння атрыбута, напрыклад, нумара суперніка, пасведчання асобы, пазначанага зорачкай, або адраса, які скарачаецца.

- Лакальнае падаўленне: адносіцца да працэсу выдалення пэўных значэнняў атрыбутаў (слупкоў), выдалення неістотных палёў дадзеных;

- Падаўленне запісаў: адносіцца да працэсу выдалення пэўных запісаў (радкоў), выдалення неістотных запісаў дадзеных.

(4). Тэхналогія псеўданімаў

Псеўдаманінг — гэта метад дэідэнтыфікацыі, які выкарыстоўвае псеўданім для замены прамога ідэнтыфікатара (або іншага канфідэнцыйнага ідэнтыфікатара). Метады псеўданімаў ствараюць унікальныя ідэнтыфікатары для кожнага асобнага суб'екта інфармацыі замест прамых або канфідэнцыйных ідэнтыфікатараў.

- Ён можа незалежна генераваць выпадковыя значэнні ў адпаведнасці з зыходным ідэнтыфікатарам, захоўваць табліцу адлюстравання і строга кантраляваць доступ да табліцы адлюстравання.

- Вы таксама можаце выкарыстоўваць шыфраванне для стварэння псеўданімаў, але трэба правільна захоўваць ключ расшыфравання;

Гэтая тэхналогія шырока выкарыстоўваецца ў выпадку вялікай колькасці незалежных карыстальнікаў дадзеных, такіх як OpenID у сцэнарыі адкрытай платформы, дзе розныя распрацоўшчыкі атрымліваюць розныя OpenID для аднаго і таго ж карыстальніка.

(5). Метады абагульнення

Тэхніка абагульнення адносіцца да тэхнікі дэідэнтыфікацыі, якая памяншае дэталізацыю выбраных атрыбутаў у наборы дадзеных і забяспечвае больш агульнае і абстрактнае апісанне дадзеных. Тэхналогія абагульнення лёгка рэалізаваць і можа абараніць сапраўднасць дадзеных на ўзроўні запісаў. Яна звычайна выкарыстоўваецца ў прадуктах дадзеных або справаздачах па дадзеных.

- Акругленне: уключае выбар асновы акруглення для выбранага атрыбута, напрыклад, крыміналістыка ў бок павелічэння або ўніз, што дае вынікі 100, 500, 1 тыс. і 10 тыс.

- Метады кадавання верхняга і ніжняга ўзроўню: замяняйце значэнні вышэй (ці ніжэй) парога парогам, які прадстаўляе верхні (ці ніжні) узровень, што дае вынік «вышэй за X» або «ніжэй за X».

(6). Метады рандомізацыі

Як разнавіднасць метаду дэідэнтыфікацыі, тэхналогія рандомізацыі азначае змяненне значэння атрыбута шляхам рандомізацыі, каб значэнне пасля рандомізацыі адрознівалася ад першапачатковага рэальнага значэння. Гэты працэс памяншае магчымасць зламысніка атрымаць значэнне атрыбута з іншых значэнняў атрыбутаў у тым жа запісе дадзеных, але ўплывае на сапраўднасць атрыманых дадзеных, што звычайна з'яўляецца звычайнай з'явай для тэставых дадзеных вытворчых сістэм.


Час публікацыі: 27 верасня 2022 г.