1. Канцэпцыя маскіроўкі даных
Маскіроўка даных таксама вядомая як маскіроўка даных. Гэта тэхнічны метад пераўтварэння, змены або пакрыцця канфідэнцыяльных даных, такіх як нумар мабільнага тэлефона, нумар банкаўскай карты і іншай інфармацыі, калі мы даем правілы і палітыку маскіроўкі. Гэты метад у асноўным выкарыстоўваецца для прадухілення непасрэднага выкарыстання канфідэнцыйных даных у ненадзейным асяроддзі.
Прынцып маскіроўкі даных: маскіроўка даных павінна падтрымліваць зыходныя характарыстыкі даных, бізнес-правілы і рэлевантнасць даных, каб гарантаваць, што маскіроўка не паўплывае на наступную распрацоўку, тэставанне і аналіз даных. Забяспечце ўзгодненасць і сапраўднасць даных да і пасля маскіроўкі.
2. Класіфікацыя маскіроўкі даных
Маскіроўку даных можна падзяліць на статычную (SDM) і дынамічную (DDM).
Статычная маскіроўка даных (SDM): Статычная маскіроўка даных патрабуе стварэння новай базы дадзеных невытворчага асяроддзя для ізаляцыі ад вытворчага асяроддзя. Канфідэнцыяльныя даныя здабываюцца з вытворчай базы дадзеных, а затым захоўваюцца ў невытворчай базе даных. Такім чынам дэсенсібілізаваныя даныя ізалююцца ад вытворчага асяроддзя, што адпавядае патрэбам бізнесу і забяспечвае бяспеку вытворчых даных.
Дынамічная маскіроўка даных (DDM): звычайна выкарыстоўваецца ў вытворчым асяроддзі для дэсенсібілізацыі канфідэнцыйных даных у рэжыме рэальнага часу. Часам для чытання адных і тых жа канфідэнцыяльных даных у розных сітуацыях патрабуюцца розныя ўзроўні маскіроўкі. Напрыклад, розныя ролі і дазволы могуць рэалізаваць розныя схемы маскіроўкі.
Дадатак для справаздачнасці і маскіроўкі даных
Такія сцэнары ў асноўным уключаюць унутраныя прадукты маніторынгу даных або рэкламныя шчыты, знешнія сэрвісныя прадукты даных і справаздачы, заснаваныя на аналізе даных, такія як бізнес-справаздачы і агляд праектаў.
3. Рашэнне для маскіроўкі даных
Агульныя схемы маскіроўкі даных ўключаюць у сябе: несапраўднасць, выпадковае значэнне, замену даных, сіметрычнае шыфраванне, сярэдняе значэнне, зрушэнне і акругленне і г.д.
Несапраўднасць: Несапраўднасць адносіцца да шыфравання, скарачэння або ўтойвання канфідэнцыяльных даных. Гэтая схема звычайна замяняе рэальныя дадзеныя адмысловымі сімваламі (напрыклад, *). Аперацыя простая, але карыстальнікі не могуць ведаць фармат зыходных даных, што можа паўплываць на наступныя прыкладанні даных.
Выпадковае значэнне: Выпадковае значэнне адносіцца да выпадковай замены канфідэнцыяльных даных (лічбы замяняюць лічбы, літары замяняюць літары і сімвалы замяняюць сімвалы). Гэты метад маскіроўкі ў пэўнай ступені забяспечыць фармат канфідэнцыйных даных і палегчыць наступнае прымяненне даных. Для некаторых значных слоў, такіх як імёны людзей і месцаў, могуць спатрэбіцца маскіруючыя слоўнікі.
Замена дадзеных: Замена даных падобная да маскіроўкі нулявых і выпадковых значэнняў, за выключэннем таго, што замест выкарыстання спецыяльных сімвалаў або выпадковых значэнняў маскіруючыя даныя замяняюцца пэўным значэннем.
Сіметрычнае шыфраванне: Сіметрычнае шыфраванне - гэта спецыяльны метад зваротнай маскіроўкі. Ён шыфруе канфідэнцыйныя даныя з дапамогай ключоў шыфравання і алгарытмаў. Фармат зашыфраванага тэксту адпавядае зыходным дадзеным у лагічных правілах.
Сярэдні: Сярэдняя схема часта выкарыстоўваецца ў статыстычных сцэнарах. Для лікавых даных мы спачатку вылічваем іх сярэдняе значэнне, а потым выпадковым чынам размяркоўваем дэсенсібілізаваныя значэнні вакол сярэдняга значэння, такім чынам захоўваючы суму даных пастаяннай.
Зрушэнне і акругленне: Гэты метад змяняе лічбавыя дадзеныя шляхам выпадковага зруху. Акругленне са зрушэннем забяспечвае прыблізную сапраўднасць дыяпазону пры захаванні бяспекі даных, якія бліжэй да рэальных даных, чым у папярэдніх схемах, і маюць вялікае значэнне ў сцэнарыі аналізу вялікіх даных.
Рэкамендаваная мадэль "ML-NPB-5660" для маскіроўкі даных
4. Звычайна выкарыстоўваюцца метады маскіроўкі даных
(1). Статыстычныя метады
Выбарка даных і агрэгацыя даных
- Выбарка даных: аналіз і ацэнка зыходнага набору даных шляхам выбару прадстаўнічай падмноства набору даных з'яўляецца важным метадам павышэння эфектыўнасці метадаў дэідэнтыфікацыі.
- Агрэгацыя даных: як набор статыстычных метадаў (такіх як сумаванне, падлік, асерадненне, максімум і мінімум), якія прымяняюцца да атрыбутаў у мікрададзеных, вынік рэпрэзентатыўны для ўсіх запісаў у зыходным наборы даных.
(2). Крыптаграфія
Крыптаграфія - звычайны метад дэсенсібілізацыі або павышэння яе эфектыўнасці. Розныя тыпы алгарытмаў шыфравання могуць дасягнуць розных эфектаў дэсенсібілізацыі.
- Дэтэрмінаванае шыфраванне: невыпадковае сіметрычнае шыфраванне. Звычайна ён апрацоўвае даныя ідэнтыфікатара і пры неабходнасці можа расшыфраваць і аднавіць зашыфраваны тэкст да зыходнага ідэнтыфікатара, але ключ трэба належным чынам абараніць.
- Незваротнае шыфраванне: для апрацоўкі дадзеных выкарыстоўваецца хэш-функцыя, якая звычайна выкарыстоўваецца для ідэнтыфікацыйных даных. Яе немагчыма расшыфраваць непасрэдна, і сувязь адлюстравання павінна быць захавана. Акрамя таго, з-за асаблівасці хэш-функцыі можа адбыцца калізія дадзеных.
- Гамаморфнае шыфраванне: выкарыстоўваецца гамаморфны алгарытм зашыфраванага тэксту. Яго характарыстыка ў тым, што вынік працы з зашыфраваным тэкстам такі ж, як і з адкрытым тэкстам пасля дэшыфравання. Такім чынам, ён звычайна выкарыстоўваецца для апрацоўкі лікавых палёў, але ён не шырока выкарыстоўваецца з меркаванняў прадукцыйнасці.
(3). Сістэмныя тэхналогіі
Тэхналогія падаўлення выдаляе або абараняе элементы даных, якія не адпавядаюць абароне прыватнасці, але не публікуе іх.
- Маскіроўка: адносіцца да найбольш распаўсюджанага метаду дэсенсібілізацыі, каб замаскіраваць значэнне атрыбута, напрыклад, нумар суперніка, пасведчанне асобы, пазначанае зорачкай, або абрэзаны адрас.
- Лакальнае падаўленне: адносіцца да працэсу выдалення пэўных значэнняў атрыбутаў (слупкоў), выдалення неістотных палёў даных;
- Падаўленне запісаў: адносіцца да працэсу выдалення пэўных запісаў (радкоў), выдалення неістотных запісаў даных.
(4). Тэхналогія псеўданімаў
Псеўдаманінг - гэта метад дэідэнтыфікацыі, які выкарыстоўвае псеўданім для замены прамога ідэнтыфікатара (ці іншага канфідэнцыйнага ідэнтыфікатара). Метады псеўданімаў ствараюць унікальныя ідэнтыфікатары для кожнага асобнага суб'екта інфармацыі замест прамых або адчувальных ідэнтыфікатараў.
- Ён можа генераваць выпадковыя значэнні незалежна адзін ад аднаго ў адпаведнасці з зыходным ідэнтыфікатарам, захоўваць табліцу адлюстравання і строга кантраляваць доступ да табліцы адлюстравання.
- Вы таксама можаце выкарыстоўваць шыфраванне для атрымання псеўданімаў, але трэба правільна захоўваць ключ дэшыфравання;
Гэтая тэхналогія шырока выкарыстоўваецца ў выпадку вялікай колькасці незалежных карыстальнікаў дадзеных, такіх як OpenID у сцэнары адкрытай платформы, дзе розныя распрацоўшчыкі атрымліваюць розныя OpenID для аднаго і таго ж карыстальніка.
(5). Прыёмы абагульнення
Тэхніка абагульнення адносіцца да тэхнікі дэідэнтыфікацыі, якая зніжае дэталізацыю выбраных атрыбутаў у наборы даных і дае больш агульнае і абстрактнае апісанне даных. Тэхналогія абагульнення простая ў рэалізацыі і можа абараніць сапраўднасць дадзеных рэкорднага ўзроўню. Ён звычайна выкарыстоўваецца ў прадуктах дадзеных або справаздачах дадзеных.
- Акругленне: уключае выбар базы акруглення для абранага атрыбута, напрыклад крыміналістыка ўверх ці ўніз, што дае вынікі 100, 500, 1K і 10K
- Метады верхняга і ніжняга кадавання: заменіце значэнні вышэй (або ніжэй) парогавага значэння парогавым значэннем, якое прадстаўляе верхні (або ніжні) узровень, што дае вынік "вышэй за X" або "ніжэй за X"
(6). Метады рандомізацыі
У якасці метаду дэідэнтыфікацыі тэхналогія рандомізацыі адносіцца да змены значэння атрыбута шляхам рандомізацыі, так што значэнне пасля рандомізацыі адрозніваецца ад першапачатковага рэальнага значэння. Гэты працэс памяншае магчымасць зламысніка атрымаць значэнне атрыбута з іншых значэнняў атрыбута ў тым жа запісе даных, але ўплывае на сапраўднасць атрыманых даных, што часта сустракаецца з дадзенымі прадукцыйных выпрабаванняў.
Час публікацыі: 27 верасня 2022 г