Што такое тэхналогія і рашэнне маскіроўкі даных у брокеры сеткавых пакетаў?

1. Канцэпцыя маскіроўкі даных

Маскіроўка даных таксама вядомая як маскіроўка даных. Гэта тэхнічны метад пераўтварэння, змены або пакрыцця канфідэнцыяльных даных, такіх як нумар мабільнага тэлефона, нумар банкаўскай карты і іншай інфармацыі, калі мы даем правілы і палітыку маскіроўкі. Гэты метад у асноўным выкарыстоўваецца для прадухілення непасрэднага выкарыстання канфідэнцыйных даных у ненадзейным асяроддзі.

Прынцып маскіроўкі даных: маскіроўка даных павінна падтрымліваць зыходныя характарыстыкі даных, бізнес-правілы і рэлевантнасць даных, каб гарантаваць, што маскіроўка не паўплывае на наступную распрацоўку, тэставанне і аналіз даных. Забяспечце ўзгодненасць і сапраўднасць даных да і пасля маскіроўкі.

2. Класіфікацыя маскіроўкі даных

Маскіроўку даных можна падзяліць на статычную (SDM) і дынамічную (DDM).

Статычная маскіроўка даных (SDM): Статычная маскіроўка даных патрабуе стварэння новай базы дадзеных невытворчага асяроддзя для ізаляцыі ад вытворчага асяроддзя. Канфідэнцыяльныя даныя здабываюцца з вытворчай базы дадзеных, а затым захоўваюцца ў невытворчай базе даных. Такім чынам дэсенсібілізаваныя даныя ізалююцца ад вытворчага асяроддзя, што адпавядае патрэбам бізнесу і забяспечвае бяспеку вытворчых даных.

СДМ

Дынамічная маскіроўка даных (DDM): звычайна выкарыстоўваецца ў вытворчым асяроддзі для дэсенсібілізацыі канфідэнцыйных даных у рэжыме рэальнага часу. Часам для чытання адных і тых жа канфідэнцыяльных даных у розных сітуацыях патрабуюцца розныя ўзроўні маскіроўкі. Напрыклад, розныя ролі і дазволы могуць рэалізаваць розныя схемы маскіроўкі.

DDM

Дадатак для справаздачнасці і маскіроўкі даных

Такія сцэнары ў асноўным уключаюць унутраныя прадукты маніторынгу даных або рэкламныя шчыты, знешнія сэрвісныя прадукты даных і справаздачы, заснаваныя на аналізе даных, такія як бізнес-справаздачы і агляд праектаў.

маскіроўка прадукту справаздачнасці даных

3. Рашэнне для маскіроўкі даных

Агульныя схемы маскіроўкі даных ўключаюць у сябе: несапраўднасць, выпадковае значэнне, замену даных, сіметрычнае шыфраванне, сярэдняе значэнне, зрушэнне і акругленне і г.д.

Несапраўднасць: Несапраўднасць адносіцца да шыфравання, скарачэння або ўтойвання канфідэнцыяльных даных. Гэтая схема звычайна замяняе рэальныя дадзеныя адмысловымі сімваламі (напрыклад, *). Аперацыя простая, але карыстальнікі не могуць ведаць фармат зыходных даных, што можа паўплываць на наступныя прыкладанні даных.

Выпадковае значэнне: Выпадковае значэнне адносіцца да выпадковай замены канфідэнцыяльных даных (лічбы замяняюць лічбы, літары замяняюць літары і сімвалы замяняюць сімвалы). Гэты метад маскіроўкі ў пэўнай ступені забяспечыць фармат канфідэнцыйных даных і палегчыць наступнае прымяненне даных. Для некаторых значных слоў, такіх як імёны людзей і месцаў, могуць спатрэбіцца маскіруючыя слоўнікі.

Замена дадзеных: Замена даных падобная да маскіроўкі нулявых і выпадковых значэнняў, за выключэннем таго, што замест выкарыстання спецыяльных сімвалаў або выпадковых значэнняў маскіруючыя даныя замяняюцца пэўным значэннем.

Сіметрычнае шыфраванне: Сіметрычнае шыфраванне - гэта спецыяльны метад зваротнай маскіроўкі. Ён шыфруе канфідэнцыйныя даныя з дапамогай ключоў шыфравання і алгарытмаў. Фармат зашыфраванага тэксту адпавядае зыходным дадзеным у лагічных правілах.

Сярэдні: Сярэдняя схема часта выкарыстоўваецца ў статыстычных сцэнарах. Для лікавых даных мы спачатку вылічваем іх сярэдняе значэнне, а потым выпадковым чынам размяркоўваем дэсенсібілізаваныя значэнні вакол сярэдняга значэння, такім чынам захоўваючы суму даных пастаяннай.

Зрушэнне і акругленне: Гэты метад змяняе лічбавыя дадзеныя шляхам выпадковага зруху. Акругленне са зрушэннем забяспечвае прыблізную сапраўднасць дыяпазону пры захаванні бяспекі даных, якія бліжэй да рэальных даных, чым у папярэдніх схемах, і маюць вялікае значэнне ў сцэнарыі аналізу вялікіх даных.

ML-NPB-5660-数据脱敏

Рэкамендаваная мадэль "ML-NPB-5660" для маскіроўкі даных

4. Звычайна выкарыстоўваюцца метады маскіроўкі даных

(1). Статыстычныя метады

Выбарка даных і агрэгацыя даных

- Выбарка даных: аналіз і ацэнка зыходнага набору даных шляхам выбару прадстаўнічай падмноства набору даных з'яўляецца важным метадам павышэння эфектыўнасці метадаў дэідэнтыфікацыі.

- Агрэгацыя даных: як набор статыстычных метадаў (такіх як сумаванне, падлік, асерадненне, максімум і мінімум), якія прымяняюцца да атрыбутаў у мікрададзеных, вынік рэпрэзентатыўны для ўсіх запісаў у зыходным наборы даных.

(2). Крыптаграфія

Крыптаграфія - звычайны метад дэсенсібілізацыі або павышэння яе эфектыўнасці. Розныя тыпы алгарытмаў шыфравання могуць дасягнуць розных эфектаў дэсенсібілізацыі.

- Дэтэрмінаванае шыфраванне: невыпадковае сіметрычнае шыфраванне. Звычайна ён апрацоўвае даныя ідэнтыфікатара і пры неабходнасці можа расшыфраваць і аднавіць зашыфраваны тэкст да зыходнага ідэнтыфікатара, але ключ трэба належным чынам абараніць.

- Незваротнае шыфраванне: для апрацоўкі дадзеных выкарыстоўваецца хэш-функцыя, якая звычайна выкарыстоўваецца для ідэнтыфікацыйных даных. Яе немагчыма расшыфраваць непасрэдна, і сувязь адлюстравання павінна быць захавана. Акрамя таго, з-за асаблівасці хэш-функцыі можа адбыцца калізія дадзеных.

- Гамаморфнае шыфраванне: выкарыстоўваецца гамаморфны алгарытм зашыфраванага тэксту. Яго характарыстыка ў тым, што вынік працы з зашыфраваным тэкстам такі ж, як і з адкрытым тэкстам пасля дэшыфравання. Такім чынам, ён звычайна выкарыстоўваецца для апрацоўкі лікавых палёў, але ён не шырока выкарыстоўваецца з меркаванняў прадукцыйнасці.

(3). Сістэмныя тэхналогіі

Тэхналогія падаўлення выдаляе або абараняе элементы даных, якія не адпавядаюць абароне прыватнасці, але не публікуе іх.

- Маскіроўка: адносіцца да найбольш распаўсюджанага метаду дэсенсібілізацыі, каб замаскіраваць значэнне атрыбута, напрыклад, нумар суперніка, пасведчанне асобы, пазначанае зорачкай, або абрэзаны адрас.

- Лакальнае падаўленне: адносіцца да працэсу выдалення пэўных значэнняў атрыбутаў (слупкоў), выдалення неістотных палёў даных;

- Падаўленне запісаў: адносіцца да працэсу выдалення пэўных запісаў (радкоў), выдалення неістотных запісаў даных.

(4). Тэхналогія псеўданімаў

Псеўдаманінг - гэта метад дэідэнтыфікацыі, які выкарыстоўвае псеўданім для замены прамога ідэнтыфікатара (ці іншага канфідэнцыйнага ідэнтыфікатара). Метады псеўданімаў ствараюць унікальныя ідэнтыфікатары для кожнага асобнага суб'екта інфармацыі замест прамых або адчувальных ідэнтыфікатараў.

- Ён можа генераваць выпадковыя значэнні незалежна адзін ад аднаго ў адпаведнасці з зыходным ідэнтыфікатарам, захоўваць табліцу адлюстравання і строга кантраляваць доступ да табліцы адлюстравання.

- Вы таксама можаце выкарыстоўваць шыфраванне для атрымання псеўданімаў, але трэба правільна захоўваць ключ дэшыфравання;

Гэтая тэхналогія шырока выкарыстоўваецца ў выпадку вялікай колькасці незалежных карыстальнікаў дадзеных, такіх як OpenID у сцэнары адкрытай платформы, дзе розныя распрацоўшчыкі атрымліваюць розныя OpenID для аднаго і таго ж карыстальніка.

(5). Прыёмы абагульнення

Тэхніка абагульнення адносіцца да тэхнікі дэідэнтыфікацыі, якая зніжае дэталізацыю выбраных атрыбутаў у наборы даных і дае больш агульнае і абстрактнае апісанне даных. Тэхналогія абагульнення простая ў рэалізацыі і можа абараніць сапраўднасць дадзеных рэкорднага ўзроўню. Ён звычайна выкарыстоўваецца ў прадуктах дадзеных або справаздачах дадзеных.

- Акругленне: уключае выбар базы акруглення для абранага атрыбута, напрыклад крыміналістыка ўверх ці ўніз, што дае вынікі 100, 500, 1K і 10K

- Метады верхняга і ніжняга кадавання: заменіце значэнні вышэй (або ніжэй) парогавага значэння парогавым значэннем, якое прадстаўляе верхні (або ніжні) узровень, што дае вынік "вышэй за X" або "ніжэй за X"

(6). Метады рандомізацыі

У якасці метаду дэідэнтыфікацыі тэхналогія рандомізацыі адносіцца да змены значэння атрыбута шляхам рандомізацыі, так што значэнне пасля рандомізацыі адрозніваецца ад першапачатковага рэальнага значэння. Гэты працэс памяншае магчымасць зламысніка атрымаць значэнне атрыбута з іншых значэнняў атрыбута ў тым жа запісе даных, але ўплывае на сапраўднасць атрыманых даных, што часта сустракаецца з дадзенымі прадукцыйных выпрабаванняў.


Час публікацыі: 27 верасня 2022 г