Разбиране на обобщени, деидентифицирани и анонимни данни
„Можем да споделяме обобщени данни с нашите партньори.“
„Можем да споделяме данни, които са обобщени или деидентифицирани.“
„Нашият продукт събира анонимни данни за целите на анализа.“
Много организации твърдят, че защитават поверителността чрез използването на обобщени, деидентифицирани или анонимни данни. Дали обаче техните потребители разбират какво означават термините? Какво представляват обобщените данни?Има ли разлика между деидентифицирани и анонимни данни?За изследователите кои набори от данни имат по-голяма стойност: обобщени или анонимни?
Потребителите често се съгласяват на споделяне на лични данни с деидентификация, без да разбират подробностите.
Ако някога сте се чудили какво се случва, не се чудете повече. Ето вашето ръководство за деидентификация на данни, агрегиране и различните нива на анонимност.
Обобщени данни: за комбиниране и обобщаване
И така, какво представляват обобщените данни? Агрегирането се отнася до процес за извличане на данни, популярен в статистиката. Информацията може да се види само в групи и като част от резюме, а не поотделно. Когато специалистите по данни разчитат на обобщени данни, те нямат достъп до необработената информация. Вместо,агрегираните данни събират, комбинират и съобщават подробности по отношение на общи суми или обобщение.Много популярни езици за статистики и бази данни позволяват агрегатни функции, с налични уроци Р , SQL и Python .
Помислете за следното: маркетингова компания провежда проучване, за да види дали хората предпочитат марката на тяхната компания или тази на техните конкуренти. Когато те представят данните на ръководството, те са в обобщена форма: показват коя марка е най-популярната. Те могат да включват допълнителна информация за групите, с които са говорили, като например предпочитания за гласуване по възраст или местоположение. С обобщена информация можем да получим подробности за това кои марки са популярни по възраст или в определени региони, но точните подробности за това как са гласували хората никога не се разкриват.
Може ли агрегирането да защити поверителността?
Тъй като агрегирането на данни показва само информация в групи, мнозина го смятат за предпазна мярка за защита на личната информация. В крайна сметка не можете да компрометирате поверителността, ако данните показват само резултатите за групи от хора, нали?
За съжаление не е толкова лесно;с правилния анализ, обобщената информация може да разкрие значителни лични подробности.Какво ще стане, ако попитате обобщените данни за блога: колко посетители получавате от Ирландия, които разглеждат блога на смартфон? Какво ще стане, ако попитате за броя на посетителите от Ирландия, които използват смартфон за един ден? Или посетители от Ирландия, които използват смартфон и са кликнали върху реклама на Amazon за мъжко облекло в един ден? Чрез прилагане на множество специфични филтри може да е възможно да се отдели индивид, умишлено или не. Агрегирането може да защити поверителността, но няма гаранция, че винаги го прави.
За организации, които използват агрегиране на данни, Ед Фелтън от FTC има предупреждение: обобщените данни могат да бъдат полезни, но не гарантират поверителност.
„Простият аргумент, че това са обобщени данни, следователно безопасни за освобождаване, сам по себе си не е достатъчен.“
Деидентификация: премахване на лични данни
Деидентификацията е процес, който премахва лични данни от набор от данни.Този подход има за цел да защити поверителността, като същевременно предоставя изчерпателни данни за анализи. Някои от данните са по-добри при идентифицирането на лица от други. Ние сме лесни за идентифициране, когато данните включват нашето име, адрес, имейл, дата на раждане или други уникални фактори. С деидентификацията премахваме тези уникални идентификатори от необработените данни.
Магазин за търговия на дребно, който използва деидентификация, може да проследява отделни покупки, дати и местоположения на магазини, но премахва имената и адресите. Докато „Сюзън Смит от 75 Clark Drive в Great Falls, Монтана пазарува инженерни книги“, базата данни на магазина я записва като „потребител на местоположението в Монтана, който купува инженерни книги“. Деидентификацията премахва името и идентификаторите на Сюзън, така че нейната покупка да може да дойде от всеки.
Деидентификацията е особено популярна мярка за защита на поверителността в клиники и организации, които обработват здравна информация. The Закон за преносимостта и отчетността на здравното осигуряване (HIPAA) разглежда деидентификацията съгласно раздел 164.514. Според HIPAA информацията е деидентифицирана, когато
„няма разумна основа информацията да може да се използва за идентифициране на дадено лице“.
HIPAA позволява някои разрешения за деидентифицирани данни, като разкриване на информация за изследвания или на държавни служители.
От деидентифициран към повторно идентифициран: може да не отнеме много.
За съжаление на организациите, които може да се надяват да използват деидентификацията като предпазна мярка, мнозина сега я виждат като лоша защита. Хората могат да бъдат идентифицирани с повече от имена и номера, благодарение на подробни набори от данни. Ако работата на субект на данни е „кмет“ и необработените данни включват град, не е нужно много, за да разберете кой кой е.
Изключително популярен случай на подчертаване на недостатъка на деидентификацията дойде през 2006 г. с Netflix. пер Робърт Лемос с SecurityFocus, в конкурс за подобряване на алгоритъма на компанията, Netflix пусна набор от 2 милиона абонати. Компанията деидентифицира набора от данни, като премахна потребителските имена. И все пак, за тяхна изненада, изследователи от Остин успяха да идентифицират потребителите. Те направиха това, като използваха наличните данни и попълниха празните места от други източници: комбинирайки потребителски оценки с публична база данни с филмови резултати. Излишно е да казвам, според epic.org , Netflix отмени конкурса.
Деидентификацията също е погрешна, защото няма универсално съгласие за това каква информация може да бъде идентифицирана лично.Данните деидентифицирани ли са, ако IP адресите останат? Какво ще кажете за датите на раждане? Съществуват стандарти, включително Safe Harbour на HIPAA, но достатъчни ли са? Според Privacy Analytics, част от групата компании на IQVIA, Safe Harbor „всъщност не гарантира, че рискът от повторна идентификация е нисък, освен при много ограничени обстоятелства“. Това е лоша новина за здравните организации, които разчитат на това, тъй като според HIPAA раздел § 164.514.2.ii, разрешенията за деидентифицирани данни са приемливи само ако няма доказателства, че данните могат да бъдат повторно идентифицирани. Последните проучвания през последните десет години, включително Рискове за неприкосновеността на личния живот на пациентите: Повторна идентификация на пациенти в болнични данни в щата Мейн и Върмонт сега означава, че са необходими нови стандарти.
Какво ще кажете за кодираните данни? Токенизация?
Кодираните данни и токенизацията са солидни начини за защита на чувствителни данни. За кодираните данни цялата чувствителна информация се премахва и се заменя с кодови думи, числа или уникални идентификатори. Кодовете се преобразуват в друга база данни или документ, който работи като ключ. Информацията се идентифицира повторно чрез съпоставяне на кода със съответните чувствителни данни.
При токенизацията ние автоматизираме процеса, заменяйки чувствителни данни с референтна променлива. Токенът се съпоставя с по-сигурна база данни, която съхранява чувствителната информация. Когато обработва информацията, системата анализира токените спрямо записи в защитената база данни. Ако открие съответното съвпадение на токена, обработката продължава, като се използват чувствителните данни.
Кодираните данни и токените защитават информационната сигурност.Те са ефективни, защото скриват само чувствителни данни. Ако анализатор желае да обработи данните, без да се позовава на лични данни, той може. По същия начин наборите от данни, които използват кодови идентификатори или токени, са по-безопасни срещу кражба. Ако данните са компрометирани, чувствителните данни остават скрити. Например, нападател, който краде данни за продажби на кредитни карти, не може да види номерата на картите, ако се използват токени.
Имайте предвид обаче, че докато токените, кодираните данни и уникалните идентификатори предлагат по-добра сигурност, те не правят данните анонимни. Данните, които използват токени или кодови идентификатори, все още са предмет на разпоредби за поверителност. Законите за поверителност не се занимават само с нарушаване на сигурността на данните и достъпа. Законодателствата за поверителност работят за минимизиране на потенциалната злоупотреба с лични данни. Докато данните могат, с разрешение, да бъдат повторно идентифицирани, трябва да има споразумения за поверителност.
Анонимни данни: не можем да кажем кой сте... или можем?
Анонимните данни се отнасят до информация, когато е невъзможно да се идентифицират лица.Наистина анонимните набори от данни са мечтата на любителите на поверителността.Възможността за събиране, съхраняване и анализиране на данни без възможност за разпознаване на лица е идеална защита. За организациите, които успяват да запазят данните си анонимни, ползите са огромни. Анонимните данни се продават, обработват, анализират и запазват по-лесно, тъй като изискват по-малко предпазни мерки за защита.
Прилагат се по-малко правила: анонимните данни често са освободени от законодателството за поверителност, включително Общия регламент за защита на данните на ЕС. Според GDPR , информацията, „която не е свързана с идентифицирано физическо лице или физическо лице, което може да бъде идентифицирано, или с лични данни, превърнати в анонимни по такъв начин, че субектът на данните не може или вече не може да бъде идентифициран“, не е предмет на изисквания за поверителност.
Как да направите данните анонимни? Повечето техники попадат в една от трите категории: криптографска, генерализация (известна също като прекодиране) и рандомизация.
Криптографски методикриптирайте информацията в хранилището, правейки данните анонимни, докато не бъдат дешифрирани за употреба. Това защитава данните, но означава, че повторното идентифициране може да се случи, когато данните се дешифрират за обработка.
Техники за обобщениезаемете от агрегирането на данни и деидентификацията, за да премахнете умишлено идентификаторите и да намалите прецизните данни. При обобщаване, например, височината или теглото на индивида става диапазон, вместо точното число.
Рандомизиранеизкривява резултатите чрез добавяне на данни и преместване на елементи, така че резултатите от повторното идентифициране да са пълни с грешки. Финландският архив на данни за социални науки Насоки за управление на данни предоставят задълбочени обяснения относно техниките за анонимизиране на качествени и количествени данни.
Защо може да се наложи напълно да се откажем от идеята за анонимни данни
За съжаление, възможността личните данни да бъдат анонимни може вече да не е опция. Изобретателността, която може да се използва за повторно идентифициране на индивиди, е напълно изумителна. Писане за The Guardian, Оливия Солон изброява примери за използване на папарашки снимки и безименни таксиметрови дневници за установяване на лоши бакшиши на знаменитости. Кори Доктороу пише за BoingBoing.net, че журналистът Svea Eckert и специалистът по данни Andreas Dewes са идентифицирали режима на лечение на германски депутат чрез данни, събрани от плъгини на браузъра. През юли 2019 г. журналист от New York Times Gina Kolata публикувани доказателства, че учените могат да идентифицират повторно „анонимизираните“ данни от преброяването на населението в САЩ. Между напредъка в науката за данните и нарастващия набор от данни за запълване на празнините, концепцията за анонимни данни може да стане безсмислена.
Така че, ако никоя от тези техники не защитава напълно поверителността, какво правим?
Първо, признайте, че докато обобщените, деидентифицирани и анонимизирани набори от данни не защитават напълно поверителността, те все пак предлагат известно ниво на защита. Ако вашите данни са обобщени, деидентифицирани или анонимизирани, има по-малък шанс те да бъдат прочетени от ежедневните процесори. За щастие извличането на лична информация от тези силно обработени данни изисква инструменти и умения, които не са достъпни за всеки човек.
Второ, имайте предвид, че ако видите тези фрази в правилата за поверителност или условията за ползване, вашата лична информация все още е достъпна. Услуга, която събира анонимни данни, все още може да събира лична информация. Компаниите, които споделят обобщена или деидентифицирана информация, все още споделят лични данни: какви са чувствата ви по въпроса?
Ако управлявате бизнес, който използва агрегиране, деидентифициране или анонимизиране, осъзнайте, че това не могат да бъдат единствените ви предпазни мерки.Трябва да имате други физически, технически и административни мерки за защита. Нарушението на данните за деидентифицирани данни все още може да ви струва, особено ако има доказателства, че личните данни могат да бъдат събрани. Използвайте тези техники като инструмент, но не като край на програмите за поверителност и сигурност.
Вижте също: Тенденции при нарушаване на данните