Esses algoritmos funcionam usando informações pessoais, como nossas compras anteriores e histórico de navegação para gerar recomendações personalizadas.A natureza sensível de tais dados torna a preservação da privacidade extremamente importante, mas os métodos existentes para resolver esse problema dependem de ferramentas criptográficas pesadas que exigem enormes quantidades de computação e largura de banda.
Os pesquisadores do MIT podem ter uma solução melhor.Eles desenvolveram um protocolo de preservação de privacidade que é tão eficiente que pode ser executado em um smartphone em uma rede muito lenta.Sua técnica protege os dados pessoais, garantindo que os resultados da recomendação sejam precisos.
Além da privacidade do usuário, seu protocolo minimiza a transferência não autorizada de informações do banco de dados, conhecida como vazamento, mesmo que um agente malicioso tente enganar um banco de dados para revelar informações secretas.
O novo protocolo pode ser especialmente útil em situações em que os vazamentos de dados podem violar as leis de privacidade do usuário, como quando um prestador de cuidados de saúde usa o histórico médico de um paciente para pesquisar um banco de dados por outros pacientes que tinham sintomas semelhantes ou quando uma empresa serve anúncios direcionados a usuários sobRegulamentos de privacidade europeia.
"Este é um problema muito difícil.Confiamos em toda uma série de truques criptográficos e algorítmicos para chegar ao nosso protocolo ", diz Sacha Servan-Schreiber, estudante de graduação no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e principal autor do artigo que apresenta este novo protocolo.
advertisementServan-Schreiber escreveu o jornal com o colega de pós-graduação da CSAIL, Simon Langowski, e seu consultor e autor sênior Srinivas Devadas, o professor de engenharia elétrica de Edwin Sibley Webster.A pesquisa será apresentada no Simpósio IEEE sobre Segurança e Privacidade.
Os dados ao lado
A técnica no coração dos mecanismos de recomendação algorítmica é conhecida como uma pesquisa vizinha mais próxima, que envolve encontrar o ponto de dados em um banco de dados mais próximo de um ponto de consulta.Pontos de dados que são mapeados próximos compartilham atributos semelhantes e são chamados de vizinhos.
Essas pesquisas envolvem um servidor vinculado a um banco de dados online que contém representações concisas de atributos de ponto de dados.No caso de um serviço de streaming de música, esses atributos, conhecidos como vetores de características, podem ser o gênero ou popularidade de diferentes músicas.
Para encontrar uma recomendação de música, o cliente (usuário) envia uma consulta ao servidor que contém um determinado vetor de recurso, como um gênero de música que o usuário gosta ou um histórico compactado de seus hábitos de escuta.O servidor fornece o ID de um vetor de recurso no banco de dados mais próximo da consulta do cliente, sem revelar o vetor real.No caso do streaming de música, esse ID provavelmente seria um título de música.O cliente aprende o título de música recomendado sem aprender o vetor de recurso associado a ele.
advertisement"O servidor deve ser capaz de fazer esse cálculo sem ver os números em que está fazendo o cálculo.Na verdade, ele não pode ver os recursos, mas ainda precisa lhe dar a coisa mais próxima no banco de dados ", diz Langowski.
Para conseguir isso, os pesquisadores criaram um protocolo que depende de dois servidores separados que acessam o mesmo banco de dados.O uso de dois servidores torna o processo mais eficiente e permite o uso de uma técnica criptográfica conhecida como recuperação de informações privadas.Essa técnica permite que um cliente consulte um banco de dados sem revelar o que está procurando, explica Servan-Schreiber.
Superando os desafios de segurança
Mas enquanto a recuperação de informações privadas é segura no lado do cliente, ela não fornece privacidade de banco de dados por conta própria.O banco de dados oferece um conjunto de vetores de candidatos - possíveis vizinhos mais próximos - para o cliente, que normalmente são conquistados mais tarde pelo cliente usando força bruta.No entanto, isso pode revelar muito sobre o banco de dados para o cliente.O desafio adicional de privacidade é impedir que o cliente aprenda esses vetores extras.
Os pesquisadores empregaram uma técnica de ajuste que elimina muitos dos vetores extras em primeiro lugar e depois usaram um truque diferente, que eles chamam de mascaramento alheio, para esconder quaisquer pontos de dados adicionais, exceto o vizinho mais próximo real.Isso preserva com eficiência a privacidade do banco de dados, para que o cliente não aprenderá nada sobre os vetores de recursos no banco de dados.
Depois de projetaram esse protocolo, eles o testaram com uma implementação sem privada em quatro conjuntos de dados do mundo real para determinar como ajustar o algoritmo para maximizar a precisão.Em seguida, eles usaram seu protocolo para realizar consultas de pesquisa vizinho mais próximo privadas nesses conjuntos de dados.
Sua técnica requer alguns segundos de tempo de processamento do servidor por consulta e menos de 10 megabytes de comunicação entre o cliente e os servidores, mesmo com bancos de dados que continham mais de 10 milhões de itens.Por outro lado, outros métodos seguros podem exigir gigabytes de comunicação ou horas de tempo de computação.A cada consulta, seu método alcançou maior que 95 % de precisão (o que significa que quase toda vez que encontrava o vizinho aproximado mais próximo do ponto de consulta).
As técnicas que eles usaram para permitir a privacidade do banco de dados impedirão um cliente malicioso, mesmo que envie perguntas falsas para tentar enganar o servidor a vazar informações.
"Um cliente malicioso não aprenderá muito mais informações do que um cliente honesto seguindo o protocolo.E protege contra servidores maliciosos também.Se alguém desviar do protocolo, você pode não obter o resultado certo, mas eles nunca aprenderão qual era a consulta do cliente ", diz Langowski.
No futuro, os pesquisadores planejam ajustar o protocolo para que possa preservar a privacidade usando apenas um servidor.Isso pode permitir que ele seja aplicado em situações mais do mundo real, pois não exigiria o uso de duas entidades não colidores (que não compartilham informações entre si) para gerenciar o banco de dados.