Pointwise Maximal Leakage: Robust, Flexible and Explainable Privacy

التفاصيل البيبلوغرافية
العنوان: Pointwise Maximal Leakage: Robust, Flexible and Explainable Privacy
Punktvist Maximalt Läckage
المؤلفون: Saeidian, Sara, 1994
المساهمون: Oechtering, Tobias J., Professor, 1975, Skoglund, Mikael, Professor, 1969, Cervia, Giulia, Palamidessi, Catuscia, Director of Research
المصدر: TRITA-EECS-AVL.
مصطلحات موضوعية: Privacy, information leakage, pointwise maximal leakage, disclosure prevention, inferential privacy, mechanism design., Dataintegritet, informationsläckage, punktvist maximalt läckage, avslöjningsprevention, inferentiell dataintegritet, mekanismdesign., Electrical Engineering, Elektro- och systemteknik
الوصف: For several decades now, safeguarding sensitive information from disclosure has been a key focus in computer science and information theory. Especially, in the past two decades, the subject of privacy has received significant attention due to the widespread collection and processing of data in various facets of society. A central question in this area is "What can be inferred about individuals from the data collected from them?"This doctoral thesis delves into a foundational and application-agnostic exploration of the theory of privacy. The overarching objective is to construct a comprehensive framework for evaluating and designing privacy-preserving data processing systems that adhere to three essential criteria:
  • Explainability. The notion of information leakage (or privacy loss) employed in this framework should be operationally meaningful. That is, it should naturally emerge from the analysis of adversarial attack scenarios. Privacy guarantees within this framework should be comprehensible to stakeholders and the associated privacy parameters should be meaningful and interpretable. 
  • Robustness. The notion of information leakage employed should demonstrate resilience against a diverse array of potential adversaries, accommodating a broad range of attack scenarios while refraining from making restrictive assumptions about adversarial capabilities.
  • Flexibility. The framework should offer value in a variety of contexts, catering to both highly privacy-sensitive applications and those with more relaxed privacy requirements. The notion of information leakage employed should also be applicable to various data types.
The privacy notion proposed in this thesis that aligns with all the above criteria is called pointwise maximal leakage (PML). PML is a random variable that measures the amount of information leaking about a secret random variable X to a publicly available related random variable Y. We first develop PML for finite random variables by studying two seemingly different but mathematically equivalent adversarial setups: the randomized function model and the gain function model. We then extend the gain function model to random variables on arbitrary probability spaces to obtain a more general form of PML. Furthermore, we study the properties of PML in terms of pre and post-processing inequalities and composition, define various privacy guarantees, and compare PML with existing privacy notions from the literature including differential privacy and its local variant. PML, by definition, is an inferential privacy measure in the sense that it compares an adversary's posterior knowledge about X with her prior knowledge. However, a prevalent misconception in the area suggests that meaningful inferential privacy guarantees are unattainable, due to an over-interpretation of a result called the impossibility of absolute disclosure prevention. Through a pivotal shift in perspective, we characterize precisely the types of disclosures that can be prevented through privacy guarantees and those that remain inevitable. In this way, we argue in favor of inferential privacy measures. On the more application-oriented front, we examine a common machine learning framework for privacy-preserving learning called Private Aggregation of Teacher Ensembles (PATE) using an information-theoretic privacy measure. Specifically, we propose a conditional form of the notion of maximal leakage to quantify the amount of information leaking about individual data entries and prove that the leakage is Schur-concave when the injected noise has a log-concave probability density. The Schur-concavity of the leakage implies that increased classification accuracy improves privacy. We also derive upper bounds on the information leakage when the injected noise has Laplace distribution.Finally, we design optimal privacy mechanisms that minimize Hamming distortion subject to maximal leakage constraints assuming that (i) the data-generating distribution (i.e., the prior) is known, or (ii) the prior belongs to a certain set of possible distributions. We prove that sets of priors that contain more "uniform" distributions generate larger distortion. We also prove that privacy mechanisms that distribute the privacy budget more uniformly over the outcomes create smaller worst-case distortion.
Att skydda känslig information mot oavsiktligt avslöjande har varit ett viktigt forskningsmål inom datavetenskap och informationsteori under de senaste decennierna. I synnerhet under de senaste två decennierna har ämnet dataintegritet fått stor uppmärksamhet, inte minst på grund av den omfattande datainsamlingen som pågår i stora delar av samhället. En central fråga inom området är "Vilka slutsatser kan dras om individer från de data som samlas in från dem?"Denna avhandling fördjupar sig i teorin bakom dataintegritet från ett fundamentalt och tillämpningsoberoende perspektiv. Det övergripande målet är att skapa ett allsidigt ramverk för att designa och utvärdera dataintegritetsbevarande databehandlingssystem som följer tre essentiella kriterier:
  • Förklarbarhet. Definitionen av informationsläckage (eller minskningen av dataintegritet) i detta ramverk bör ha en operationell betydelse, det vill säga att definitionen uppkommer naturligt från en analys av potentiella fientliga attacker. Dataintegritetsgarantier inom detta ramverk bör också vara förståeliga för intressenter, och motsvarande dataintegritetsparametrar bör vara meningsfulla och tolkningsbara.
  • Robusthet. Definitionen av informationsläckage bör uppvisa motståndskraft mot en mångfald av potentiella fientliga attacker: definitionen bör vara tillämpbar på ett brett spektrum av fientliga attacker och undvika att göra restriktiva antaganden om den fientliga förmågan.
  • Flexibilitet. Ramverket bör vara användbart i ett brett spektrum av tillämpningar; både i situationer där dataintegritet är av yttersta vikt, och där kraven inte är lika strikta. Definitionen av informationsläckage bör också vara applicerbart på olika datatyper.
Definitionen av dataintegritet som presenteras i denna avhandling följer kriterierna ovan och kallas punktvist maximalt läckage (PML). PML är en stokastisk variabel som mäter mängden informationsläckage från en hemlig stokastisk variabel X till en relaterad, men publik, stokastisk variabel Y. Vi börjar med att definiera PML för diskreta stokastiska variabler genom studier av två till synes olika, men matematiskt ekvivalenta, attackscenarier: den slumpmässiga funktionsmodellen och vinstfunktionsmodellen. Vi vidareutvecklar vinstfunktionsmodellen till stokastiska variabler i godtyckliga sannolikhetsrum, vilket resulterar i en mer generell form av PML. Vidare studerar vi egenskaperna för PML före och efter databehandling och funktionskomposition; definierar flera dataintegritetsgarantier; samt jämför PML med existerande dataintegritetsdefinitioner, såsom differentiell dataintegritet och dess lokala variant.Per definition är PML ett inferentiellt dataintegritetsmått, i bemärkelsen att det jämför en fiendes information om X före och efter databehandling. En vanlig missuppfattning inom forskningsfältet är dock att meningsfulla inferentiella dataintegritetsgarantier är ouppnåeliga. Detta beror på en övertolkning av ett resultat som kallas omöjligheten att helt förebygga informationsutlämnande. Genom en grundläggande perspektivförändring kan vi precist karaktärisera de typerna av informationsutlämnande som kan förebyggas genom dataintegritetsgarantier, och de som förblir oundvikliga. Med bakgrund av detta argumenterar vi för användandet av inferentiella dataintegritetsmått.En tillämpning vi undersöker är ett vanligt maskininlärningsramverk för dataintegritetsbevarande inlärning som kallas Privat Aggregation av Lärarensembler (eng: Private Aggregation of Teacher Ensambles (PATE)), genom ett informationsteoretiskt dataintegritetsmått. Specifikt föreslår vi en betingad form av maximalt läckage för att kvantifiera mängden informationsläckage från individuella datapunkter, och visar att läckaget är Schur-konkavt när det tillagda bruset har en log-konkav sannolikhetsfördelning. Läckagets Schur-konkavitet innebär att ökad klassificeringsprestanda stärker dataintegriteten. Vi härleder också övre gränser på informationsläckaget när det tillagda bruset följer en Laplacefördelning. Till sist designar vi optimala dataintegritetsmekanismer som minimerar Hammingdistorsionen i situationer där det maximala läckaget är begränsat, under antagande att (i) a-priori-fördelningen är känd, (ii) a-priori-fördelningen tillhör en given mängd av möjliga sannolikhetsfördelningar. Vi visar att de mängder av a-priori-fördelningar som innehåller fler uniforma sannolikhetsfördelningar genererar större distorsion. Vi visar också att dataintegritetsmekanismer som distribuerar dataintegritetsbudgeten mer uniformt över utfallen ger upphov till mindre distorsion i värsta fall.
وصف الملف: electronic
URL الوصول: https://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-342126
https://kth.diva-portal.org/smash/get/diva2:1827326/FULLTEXT01.pdf
قاعدة البيانات: SwePub