Estos algoritmos funcionan utilizando información personal como nuestras compras pasadas y el historial de navegación para generar recomendaciones personalizadas.La naturaleza confidencial de dichos datos hace que la preservación de la privacidad sea extremadamente importante, pero los métodos existentes para resolver este problema dependen de herramientas criptográficas pesadas que requieran enormes cantidades de cálculo y ancho de banda..
Los investigadores del MIT pueden tener una mejor solución.Desarrollaron un protocolo de preservación de la privacidad que es tan eficiente que puede ejecutarse en un teléfono inteligente a través de una red muy lenta.Sus técnicas salvaguardan los datos personales al tiempo que garantizan que los resultados de las recomendaciones sean precisos.
Además de la privacidad del usuario, su protocolo minimiza la transferencia no autorizada de información de la base de datos, conocida como fugas, incluso si un agente malicioso intenta engañar a una base de datos para revelar información secreta.
El nuevo protocolo podría ser especialmente útil en situaciones en las que las filtraciones de datos podrían violar las leyes de privacidad del usuario, como cuando un proveedor de atención médica utiliza el historial médico de un paciente para buscar en una base de datos a otros pacientes que tenían síntomas similares o cuando una empresa atiende anuncios específicos a los usuarios debajo deRegulaciones de privacidad europeas.
"Este es un problema realmente difícil.Confiamos en toda una serie de trucos criptográficos y algorítmicos para llegar a nuestro protocolo ", dice Sacha Servan-Schreiber, estudiante graduado en el Laboratorio de Informática e Inteligencia Artificial (CSAIL) y la autora principal del artículo presenta este nuevo protocolo.
advertisementServan-Schreiber escribió el documento con su compañero estudiante graduado de CSAIL Simon Langowski y su asesor y autor principal Srinivas Devadas, profesor de ingeniería eléctrica Edwin Sibley Webster.La investigación se presentará en el Simposio IEEE sobre seguridad y privacidad..
Los datos de al lado
La técnica en el corazón de los motores de recomendación algorítmica se conoce como una búsqueda de vecinos más cercano, que implica encontrar el punto de datos en una base de datos más cercana a un punto de consulta.Los puntos de datos que se asignan cerca comparten atributos similares y se llaman vecinos.
Estas búsquedas involucran un servidor que está vinculado con una base de datos en línea que contiene representaciones concisas de los atributos del punto de datos.En el caso de un servicio de transmisión de música, esos atributos, conocidos como vectores de funciones, podrían ser el género o popularidad de diferentes canciones.
Para encontrar una recomendación de canciones, el cliente (usuario) envía una consulta al servidor que contiene un cierto vector de características, como un género de música que le gusta al usuario o un historial comprimido de sus hábitos de escucha.Luego, el servidor proporciona la ID de un vector de características en la base de datos que está más cerca de la consulta del cliente, sin revelar el vector real.En el caso de la transmisión de música, esa identificación probablemente sería un título de canción.El cliente aprende el título de canción recomendado sin aprender el vector de funciones asociado con él.
advertisement"El servidor debe poder hacer este cálculo sin ver los números en los que está haciendo el cálculo en.En realidad no puede ver las características, pero aún necesita darle lo más cercano en la base de datos ", dice Langowski.
Para lograr esto, los investigadores crearon un protocolo que se basa en dos servidores separados que acceden a la misma base de datos.El uso de dos servidores hace que el proceso sea más eficiente y permite el uso de una técnica criptográfica conocida como recuperación de información privada.Esta técnica permite que un cliente consulte una base de datos sin revelar lo que está buscando, explica Servan-Schreiber.
Superar los desafíos de seguridad
Pero si bien la recuperación de información privada es segura en el lado del cliente, no proporciona privacidad de la base de datos por sí mismo.La base de datos ofrece un conjunto de vectores candidatos, posibles vecinos más cercanos, para el cliente, que generalmente son reducidos más tarde por el cliente utilizando la fuerza bruta.Sin embargo, hacerlo puede revelar mucho sobre la base de datos al cliente.El desafío de privacidad adicional es evitar que el cliente aprenda esos vectores adicionales..
Los investigadores emplearon una técnica de ajuste que elimina muchos de los vectores adicionales en primer lugar, y luego utilizaron un truco diferente, que llaman enmascaramiento ajeno, para ocultar cualquier punto de datos adicional, excepto el vecino real más cercano..Esto conserva eficientemente la privacidad de la base de datos, por lo que el cliente no aprenderá nada sobre los vectores de funciones en la base de datos.
Una vez que diseñaron este protocolo, lo probaron con una implementación no privada en cuatro conjuntos de datos del mundo real para determinar cómo sintonizar el algoritmo para maximizar la precisión.Luego, utilizaron su protocolo para realizar consultas privadas de búsqueda de vecinos más cercanos en esos conjuntos de datos.
Su técnica requiere unos segundos de tiempo de procesamiento del servidor por consulta y menos de 10 megabytes de comunicación entre el cliente y los servidores, incluso con bases de datos que contenían más de 10 millones de elementos.Por el contrario, otros métodos seguros pueden requerir gigabytes de comunicación o horas de tiempo de cálculo.Con cada consulta, su método alcanzó una precisión superior al 95 por ciento (lo que significa que casi cada vez que encontraba al vecino más cercano aproximado real al punto de consulta).
Las técnicas que usaron para habilitar la privacidad de la base de datos frustrarán a un cliente malicioso incluso si envía consultas falsas para intentar engañar al servidor en información.
"Un cliente malicioso no aprenderá mucha más información que un cliente honesto después del protocolo.Y también protege contra servidores maliciosos.Si uno se desvía del protocolo, es posible que no obtenga el resultado correcto, pero nunca aprenderá cuál fue la consulta del cliente ", dice Langowski.
En el futuro, los investigadores planean ajustar el protocolo para que pueda preservar la privacidad utilizando solo un servidor.Esto podría permitir que se aplique en situaciones más reales del mundo, ya que no requeriría el uso de dos entidades que no se convierten (que no comparten información entre sí) para administrar la base de datos.