Ces algorithmes fonctionnent en utilisant des informations personnelles comme nos achats passés et nos histoires de navigation pour générer des recommandations sur mesure.La nature sensible de ces données rend la préservation de la vie privée extrêmement importante, mais les méthodes existantes pour résoudre ce problème reposent sur de lourds outils cryptographiques nécessitant d'énormes quantités de calcul et de bande passante.
Les chercheurs du MIT peuvent avoir une meilleure solution.Ils ont développé un protocole préservant de la confidentialité qui est si efficace qu'il peut fonctionner sur un smartphone sur un réseau très lent.Leur technique protége les données personnelles tout en garantissant que les résultats de recommandation sont exacts.
En plus de la confidentialité des utilisateurs, leur protocole minimise le transfert non autorisé des informations de la base de données, appelée fuite, même si un agent malveillant essaie de tromper une base de données pour révéler des informations secrètes.
Le nouveau protocole pourrait être particulièrement utile dans les situations où les fuites de données pourraient violer les lois sur la confidentialité des utilisateurs, comme lorsqu'un fournisseur de soins de santé utilise les antécédents médicaux d'un patient pour rechercher une base de données pour d'autres patients qui avaient des symptômes similaires ou lorsqu'une entreprise sert des publicités ciblées aux utilisateurs sous les utilisateurs sousRèglement sur la confidentialité européenne.
"C'est un problème vraiment difficile.Nous nous sommes appuyés sur toute une série d'astuces cryptographiques et algorithmiques pour arriver à notre protocole ", explique Sacha Servan-Schreiber, étudiante diplômée dans le laboratoire d'intelligence informatique et artificielle (CSAIL) et auteur principal du journal qui présente ce nouveau protocole.
advertisementServan-Schreiber a écrit le journal avec le collègue étudiant diplômé de CSAIL Simon Langowski et leur conseiller et auteur principal Srinivas Devadas, le professeur d'Edwin Sibley Webster en génie électrique.La recherche sera présentée au Symposium IEEE sur la sécurité et la vie privée.
Les données d'à côté
La technique au cœur des moteurs de recommandation algorithmique est connue comme une recherche de voisin le plus proche, qui consiste à trouver le point de données dans une base de données qui est la plus proche d'un point de requête.Les points de données qui sont cartographiés à proximité partagent des attributs similaires et sont appelés voisins.
Ces recherches impliquent un serveur lié à une base de données en ligne qui contient des représentations concises des attributs de points de données.Dans le cas d'un service de streaming musical, ces attributs, appelés vecteurs de fonctionnalités, pourraient être le genre ou la popularité de différentes chansons.
Pour trouver une recommandation de chanson, le client (utilisateur) envoie une requête au serveur qui contient un certain vecteur de fonctionnalité, comme un genre de musique que l'utilisateur aime ou un historique compressé de ses habitudes d'écoute.Le serveur fournit ensuite l'ID d'un vecteur de fonctionnalité dans la base de données qui est le plus proche de la requête du client, sans révéler le vecteur réel.Dans le cas du streaming musical, cette carte d'identité serait probablement un titre de chanson.Le client apprend le titre de la chanson recommandée sans apprendre le vecteur de fonctionnalité associé à lui.
advertisement"Le serveur doit être en mesure de faire ce calcul sans voir les nombres sur lesquels il fait le calcul sur.Il ne peut pas vraiment voir les fonctionnalités, mais doit encore vous donner la chose la plus proche de la base de données ", explique Langowski.
Pour y parvenir, les chercheurs ont créé un protocole qui s'appuie sur deux serveurs distincts qui accèdent à la même base de données.L'utilisation de deux serveurs rend le processus plus efficace et permet l'utilisation d'une technique cryptographique connue sous le nom de récupération d'informations privées.Cette technique permet à un client d'interroger une base de données sans révéler ce qu'elle recherche, Servan-Schreiber explique.
Surmonter les défis de sécurité
Mais alors que la récupération des informations privées est sécurisée du côté du client, elle ne fournit pas de confidentialité de la base de données en soi.La base de données propose un ensemble de vecteurs candidats - des voisins les plus proches possibles - pour le client, qui sont généralement plus tard par le client en utilisant Brute Force.Cependant, cela peut révéler beaucoup de choses sur la base de données au client.Le défi supplémentaire de la confidentialité consiste à empêcher le client d'apprendre ces vecteurs supplémentaires.
Les chercheurs ont utilisé une technique de réglage qui élimine de nombreux vecteurs supplémentaires en premier lieu, puis a utilisé une astuce différente, qu'ils appellent un masquage inconscient, pour cacher tous les points de données supplémentaires, à l'exception du voisin le plus proche réel.Cela préserve efficacement la confidentialité de la base de données, afin que le client n'apprenne rien sur les vecteurs de fonctionnalités dans la base de données.
Une fois qu'ils ont conçu ce protocole, ils l'ont testé avec une implémentation non privée sur quatre ensembles de données du monde réel pour déterminer comment régler l'algorithme pour maximiser l'exactitude.Ensuite, ils ont utilisé leur protocole pour mener des requêtes de recherche de voisins les plus proches privés sur ces ensembles de données.
Leur technique nécessite quelques secondes de temps de traitement du serveur par requête et moins de 10 mégaoctets de communication entre le client et les serveurs, même avec des bases de données contenant plus de 10 millions d'éléments.En revanche, d'autres méthodes sécurisées peuvent nécessiter des gigaoctets de communication ou des heures de calcul.À chaque requête, leur méthode a atteint une précision supérieure à 95% (ce qui signifie que presque chaque fois qu'il a trouvé le voisin le plus proche approximatif du point de requête).
Les techniques qu'ils ont utilisées pour permettre la confidentialité de la base de données contrecarreront un client malveillant même s'il envoie de fausses requêtes pour essayer de tromper le serveur dans des informations qui fuient.
"Un client malveillant n'apprendra pas beaucoup plus d'informations qu'un client honnête suivant le protocole.Et il protège contre les serveurs malveillants aussi.Si l'on s'écarte du protocole, vous pourriez ne pas obtenir le bon résultat, mais ils n'apprendront jamais quelle était la requête du client ", dit Langowski.
À l'avenir, les chercheurs prévoient d'ajuster le protocole afin qu'il puisse préserver la vie privée en utilisant un seul serveur.Cela pourrait lui permettre d'être appliqué dans des situations plus réelles, car elle ne nécessiterait pas l'utilisation de deux entités non collutives (qui ne partagent pas d'informations entre elles) pour gérer la base de données.