Le Center for Data Innovation s'est entretenu avec Kevin Yee, co-fondateur et CTO de BetterData, une startup basée à Singapour axée sur les données synthétiques.Yee a discuté de certaines des technologies préservant la confidentialité qu'il s'attend à émerger dans les années à venir.
Gillian Diebold: How can synthetic data help businesses innovate?
Kevin Yee: You’ve probably heard the phrase that data is the new oil—an asset that has significant value beyond its current use.Beaucoup de gens ont cette perception parce que les entreprises utilisent des données pour développer, expérimenter et innover.D'un autre côté, les fuites de données, comme les fuites d'huile, peuvent être extrêmement dévastatrices pour les organisations, les personnes et la société.
Les entreprises doivent désormais innover avec des données qui contient des informations précieuses sur le comportement d'un client, mais ils doivent également gérer les risques impliqués et le spectre en constante évolution des attentes des utilisateurs.Cela comprend les responsabilités de sécurité et les problèmes de confidentialité, en particulier lorsque les données contiennent des informations personnellement identifiables (PII) vulnérables aux fuites qui peuvent mettre une organisation à la réputation et au risque réglementaire.
En raison de l'intangibilité des données, les organisations n'ont pas de moyen structuré pour mesurer le rapport risque-récompense de l'utilisation des données.Cela conduit souvent à une approche plus conservatrice où les données sont cloisonnées dans les bases de données - non utilisées et sans prétention.C'est un cas d'incertitude, et nous savons tous que l'incertitude ne peut pas être quantifiée.
Tout cela peut sembler intimidant au début, mais c'est exactement là que les données synthétiques prennent les projecteurs.Les données synthétiques aident les organisations à rendre les données librement accessibles et portables entre les équipes, les entreprises et les frontières internationales.Les techniques AI avancées telles que les réseaux adversaires génératifs (GAN) sont en mesure de produire des données synthétiques qui maintient les propriétés statistiques et les modèles des données d'origine tout en garantissant la confidentialité en présentant un risque de réidentification presque zéro par rapport aux méthodes d'anonymisation actuelles où les méthodes de données actuelles où les méthodes de données actuelles où les méthodes de données actuelles oùLe risque est super élevé.
Que ce soit pour soutenir l'intelligence artificielle et l'apprentissage automatique (AI / ML) ou partager des données en interne et en externe, les données synthétiques générées artificiellement peuvent être utilisées comme substitut de données réelles avec une accessibilité complète et une conformité.Ainsi, les organisations peuvent désormais innover avec des données synthétiques sans risque et obstacle à la conformité de l'utilisation de données réelles.
Diebold: How does differential privacy protect user data?
Yee: Speaking from an AI perspective, differential privacy is one of the predominant techniques used to prevent deep learning models from exposing users’ private information in the datasets used to train them.
Pionnier par Cynthia Dwork à Microsoft Research, il a été largement adopté par les géants de la technologie pour «apprendre» la communauté des utilisateurs élargie sans apprendre sur des individus spécifiques.Ainsi, un ensemble de données synthétique produit par un modèle différentiellement privé protège les données utilisateur en fournissant des garanties de confidentialité soutenues par des preuves mathématiques accessibles au public tout en gardant le même schéma et en maintenant la plupart des propriétés statistiques de l'ensemble de données original.
La clé de l'ensemble de la technique ici réside dans l'équilibrage de la confidentialité et de la précision avec un paramètre appelé ε (epsilon) - plus la valeur ε est petite, plus la vie privée est préservée, mais plus la précision des données est faible.Avec une valeur ε soigneusement choisie, il est possible de créer un ensemble de données synthétique avec un utilité assez élevée tout en assurant une intimité suffisante.
Cela signifie que les données synthétiques différentiellement privées atténuent différentes attaques de confidentialité telles que l'inférence de l'adhésion et les attaques d'inversion du modèle qui peuvent potentiellement reconstruire les données de formation en partie ou en tout en raison de la fuite d'informations d'un modèle d'IA formé.
Diebold: Can you explain how synthetic data can lead to “fairer” AI models? What does “fairness” mean?
Yee: This topic is very much up for debate, with no right or wrong answers.L'équité est un concept complexe qui signifie différentes choses dans différents contextes pour différentes personnes.Disons que pour les praticiens de l'IA, l'équité a tendance à être considérée dans une perspective quantitative où les algorithmes sont soumis à des contraintes d'équité impliquant des attributs sensibles et légalement protégés.L'objectif est de s'assurer que les algorithmes fonctionnent bien dans la vie réelle tout en traitant les gens «assez» et sans parti pris en ce qui concerne les attributs tels que la race, la religion, l'emploi, le revenu, le sexe;la liste continue.
Il est juste de dire qu'il n'y a pas de cause unique de biais et donc, aucune solution unique.Cependant, un bon remède pourrait être à sa source - les données elle-même.Une façon de réduire les biais dans un ensemble de données est d'assurer la parité démographique dans les sous-groupes protégés où l'appartenance à un sous-groupe protégé n'a aucune corrélation avec le résultat prédictif d'un modèle AI / ML en aval.Autrement dit, un modèle d'IA ne doit pas discriminer aucun attribut, et pour cela, une version «fixe» d'un ensemble de données est très nécessaire.
Disons que nous avons un ensemble de données sur le revenu citoyen où la parité démographique n'est pas satisfaite dans la variable «sexe» protégée.En d'autres termes, il existe une proportion plus élevée d'hommes par rapport aux femmes dans la catégorie à revenu élevé.La fixation du biais au niveau des données peut être obtenue avec des données synthétiques en raison d'un contrôle total sur le processus de génération de données.Cela nous permet de générer une proportion égale des hommes et des femmes dans la catégorie à revenu élevé et à faible revenu pour éliminer la corrélation entre le «sexe» et le «revenu» et atténue le biais du revenu en ce qui concerne le sexe.
Réduire le biais à travers une perspective quantitative n'est qu'une étape.Avec l'équité qui réside dans l'intersection du droit, des sciences sociales et de la technologie, la question des modèles d'IA plus équitables ne peut être abordée que par une seule avenue et nécessiterait un ensemble de parties prenantes diverses pour fournir leurs perspectives pour façonner les décisions et les politiques futures.
Diebold: What are some real-world use cases for synthetic data?
Yee: I personally believe synthetic data is the future for open data innovation and a responsible data economy.Il y a une tonne de cas d'utilisation, mais laissez-moi en partager un qui me reste près à mon cœur.Dites que vous êtes une entreprise de reconnaissance faciale qui utilise des images de visage pour former un modèle d'IA et classer les gens.Supposons que la plupart des images appartiennent à un teint spécifique, conduisant à une précision de classification élevée pour ce teint et non les autres.En utilisant des données synthétiques, des visages avec toutes sortes de tons de peau peuvent être générés, et le modèle d'IA peut être amélioré pour mieux détecter les personnes qui étaient auparavant mal classées en raison d'un manque de données.
S'exprimant à un niveau plus large maintenant, Amazon utilise des données synthétiques pour former la reconnaissance de la vision Amazon Go et les systèmes linguistiques d'Alexa.Roche, l'une des sociétés pharmaceutiques de pointe, utilise des données médicales synthétiques pour des recherches et essais cliniques plus rapides et moins chers.Google Waymo utilise des données synthétiques pour former ses véhicules autonomes.Ford combine des moteurs de jeu avec des données synthétiques pour l'entraînement en IA - comment cool est que.Deloitte construit des modèles d'IA plus précis en générant artificiellement 80% des données de formation, et American Express utilise des données financières synthétiques pour améliorer les algorithmes de détection de fraude.
Diebold: Beyond synthetic data, what other privacy-preserving technologies will be important in the coming years?
Yee: As more than 120 countries have already passed data protection regulations, privacy-preserving technologies (PPTs) or privacy-enhancing technologies (PETs) will only become increasingly more important in the years ahead.Ces technologies se compléteront mutuellement pour résoudre différents problèmes et seront une pièce maîtresse pour surmonter les sensibilités réglementaires, éthiques et sociales autour des données.Outre les données synthétiques et la confidentialité différentielle, je suis enthousiasmé par les nouvelles technologies suivantes:
Premièrement, la blockchain pour le suivi des données de provenance, de la transparence et de la propriété non gardienne des données personnelles des personnes.Je pense que la blockchain (web3) a les bons outils de sécurité et de confidentialité pour démocratiser les données.
De même, je suis intéressé par l'apprentissage fédéré de former un modèle partagé tout en gardant toutes les données de formation locales sur les appareils des utilisateurs en échangeant des paramètres du modèle d'IA au lieu des données brutes elle-même.Il est bien adapté aux cas d'utilisation où les données sont distribuées sur un nombre élevé de parties prenantes, telles que les smartphones, où la confidentialité des utilisateurs est indispensable.Il est moins adapté aux cas d'utilisation impliquant l'utilisation, le partage ou l'analyse de grandes quantités de données centralisées sensibles.
Le calcul multipartite sécurisé permet à plusieurs parties de partager en toute sécurité leurs données et d'effectuer des calculs sans révéler les entrées individuelles.Bien que cette technique offre une fidélité de sécurité plus élevée que l'apprentissage fédéré, il nécessite des opérations cryptographiques coûteuses, ce qui entraîne des coûts de calcul super élevés.Par conséquent, il convient plus à un plus petit nombre de participants et de modèles d'apprentissage automatique de base.
Enfin, les environnements d'exécution de confiance changent vraiment la donne, à mon avis.Ils sont un pas au-delà de la sécurité des logiciels et sont basés sur des enclaves matérielles sécurisées.Cela signifie les données cryptées et chiffrées dans les données - tout en établissant la confidentialité, l'intégrité et l'attestation des données du code ou de la fonction exécutée dans l'enclave elle-même.