5 Q para Kevin Yee, cofundador y CTO de BetterData

El Centro para la Innovación de Datos habló con Kevin Yee, cofundador y CTO de BetterData, una startup con sede en Singapur que se centra en los datos sintéticos.Yee discutió algunas de las tecnologías de preservación de la privacidad que espera emerger en los próximos años.

Gillian Diebold: How can synthetic data help businesses innovate?

Kevin Yee: You’ve probably heard the phrase that data is the new oil—an asset that has significant value beyond its current use.Muchas personas tienen esta percepción porque las empresas usan datos para desarrollar, experimentar e innovar.Por otro lado, las fugas de datos, como las fugas de petróleo, pueden ser extremadamente devastadoras para las organizaciones, las personas y la sociedad.

Las empresas ahora deben innovar con datos que contengan información valiosa sobre el comportamiento de un cliente, pero también deben manejar los riesgos involucrados y el espectro en constante cambio de las expectativas del usuario.Esto incluye pasivos de seguridad y preocupaciones de privacidad, especialmente cuando los datos contienen información de identificación personal (PII) vulnerable a fugas que pueden poner a una organización en riesgo reputacional y regulatorio.

Debido a la intangibilidad de los datos, las organizaciones no tienen una forma estructurada de medir la relación de riesgo-recompensa del uso de datos.Esto a menudo conduce a un enfoque más conservador donde los datos se conectan en bases de datos, sin usar y no superpusionados..Es un caso de incertidumbre, y todos sabemos que la incertidumbre no se puede cuantificar.

Todo esto puede sonar desalentador al principio, pero aquí es exactamente donde los datos sintéticos se destacan.Los datos sintéticos ayudan a las organizaciones a hacer datos libremente accesibles y portátiles en todos los equipos, empresas y fronteras internacionales.Las técnicas avanzadas de IA, como las redes adversas generativas (GAN), pueden producir datos sintéticos que mantienen las propiedades y patrones estadísticos de los datos originales al tiempo que garantizan la privacidad al tener un riesgo casi cero de reidentificación en comparación con los métodos de anonimato de datos actuales donde el lugar.El riesgo es súper alto.

Si debe apoyar el desarrollo de inteligencia artificial y aprendizaje automático (IA/ml) o compartir datos interna y externamente, los datos sintéticos generados artificialmente pueden usarse como un sustituto de datos reales con accesibilidad y cumplimiento total.Por lo tanto, las organizaciones ahora pueden innovar con datos sintéticos sin los obstáculos de riesgo y cumplimiento del uso de datos reales.

Diebold: How does differential privacy protect user data?

Yee: Speaking from an AI perspective, differential privacy is one of the predominant techniques used to prevent deep learning models from exposing users’ private information in the datasets used to train them.

Pionero por Cynthia Dwork en Microsoft Research, los gigantes tecnológicos han adoptado ampliamente "aprender" sobre la comunidad de usuarios extendidos sin aprender sobre personas específicas.Por lo tanto, un conjunto de datos sintético producido por un modelo diferencialmente privado protege los datos del usuario al proporcionar garantías de privacidad respaldadas por pruebas matemáticas disponibles públicamente mientras mantiene el mismo esquema y mantiene la mayoría de las propiedades estadísticas del conjunto de datos original.

La clave para toda la técnica aquí radica en equilibrar la privacidad y la precisión con un parámetro llamado ε (epsilon): cuanto menor sea el valor ε, mayor se conserva la privacidad, pero menor es la precisión de los datos.Con un valor ε cuidadosamente elegido, es posible crear un conjunto de datos sintético con una utilidad bastante alta y garantizar suficiente privacidad.

Lo que esto significa es que los datos sintéticos diferencialmente privados mitigan diferentes ataques de privacidad, como la inferencia de membresía y los ataques de inversión del modelo que pueden reconstruir potencialmente los datos de entrenamiento en parte o total debido a la fuga de información de un modelo de IA capacitado.

5 Q’s for Kevin Yee, co-founder and CTO of betterdata

Diebold: Can you explain how synthetic data can lead to “fairer” AI models? What does “fairness” mean?

Yee: This topic is very much up for debate, with no right or wrong answers.La equidad es un concepto complejo que significa cosas diferentes en diferentes contextos para diferentes personas..Digamos que para los practicantes de IA, la equidad tiende a verse desde una perspectiva cuantitativa donde los algoritmos están sujetos a restricciones de equidad que involucran atributos sensibles y legalmente protegidos.El objetivo es garantizar que los algoritmos funcionen bien en la vida real al tiempo que tratan a las personas "justas" y sin sesgo con respecto a atributos como raza, religión, trabajo, ingresos, género;la lista continua.

Es justo decir que no hay una sola causa de sesgo y, por lo tanto, no hay solución única.Sin embargo, un buen remedio podría estar en su fuente: los datos en sí.Una forma de reducir el sesgo en un conjunto de datos es garantizar la paridad demográfica en los subgrupos protegidos donde la membresía en un subgrupo protegido no tiene correlación con el resultado predictivo de un modelo AI/ML aguas abajo.En pocas palabras, un modelo de IA no debe discriminar ningún atributo, y para eso, es muy necesaria una versión "fija" de un conjunto de datos.

Digamos que tenemos un conjunto de datos de ingresos ciudadanos donde la paridad demográfica no está satisfecha en la variable protegida de "sexo".En otras palabras, hay una mayor proporción de hombres en comparación con las mujeres en la categoría de altos ingresos.La fijación de sesgo a nivel de datos se puede lograr con datos sintéticos debido al control total sobre el proceso de generación de datos.Esto nos permite generar una proporción igual de hombres y mujeres en la categoría de altos y bajos ingresos para eliminar la correlación entre el "sexo" y el "ingreso" y mitiga el sesgo de ingresos con respecto al género.

Reducir el sesgo a través de una perspectiva cuantitativa es solo un paso.Con la equidad en la intersección de la ley, las ciencias sociales y la tecnología, el tema de los modelos de IA más justos no puede abordarse solo a través de una vía y requeriría un conjunto de partes interesadas diversas para proporcionar sus perspectivas para dar forma a las decisiones y las políticas futuras.

Diebold: What are some real-world use cases for synthetic data?

Yee: I personally believe synthetic data is the future for open data innovation and a responsible data economy.Hay un montón de casos de uso por ahí, pero déjame compartir uno que se sienta cerca de mi corazón.Digamos que es una empresa de reconocimiento facial que utiliza imágenes faciales para capacitar a un modelo de IA y clasificar a las personas.Supongamos que la mayoría de las imágenes pertenecen a un tono de piel específico, lo que lleva a una alta precisión de clasificación para ese tono de piel y no para otras.Mediante el uso de datos sintéticos, se pueden generar caras con todo tipo de tonos de piel, y el modelo de IA se puede mejorar para detectar mejor a las personas que previamente se clasificaron erróneas debido a la falta de datos.

Hablando en un nivel más amplio ahora, Amazon está utilizando datos sintéticos para entrenar el reconocimiento de la visión de Amazon Go y los sistemas de idiomas de Alexa.Roche, una de las compañías farmacéuticas líderes en la industria, está utilizando datos médicos sintéticos para investigaciones y ensayos clínicos más rápidos y baratos.Google Waymo está utilizando datos sintéticos para entrenar sus vehículos autónomos..Ford está combinando motores de juego con datos sintéticos para el entrenamiento de IA, lo genial que es que.Deloitte está construyendo modelos de IA más precisos al generar artificialmente el 80 por ciento de los datos de capacitación, y American Express está utilizando datos financieros sintéticos para mejorar los algoritmos de detección de fraude.

Diebold: Beyond synthetic data, what other privacy-preserving technologies will be important in the coming years?

Yee: As more than 120 countries have already passed data protection regulations, privacy-preserving technologies (PPTs) or privacy-enhancing technologies (PETs) will only become increasingly more important in the years ahead.Estas tecnologías se complementarán entre sí para resolver diferentes problemas y serán una pieza central para superar las sensibilidades regulatorias, éticas y sociales en torno a los datos.Además de los datos sintéticos y la privacidad diferencial, estoy entusiasmado con las siguientes nuevas tecnologías:

Primero, blockchain para el seguimiento de la procedencia de datos, la transparencia y la propiedad no custodial de los datos personales de las personas.Creo que Blockchain (Web3) tiene las herramientas adecuadas para la seguridad y la privacidad para democratizar los datos.

Del mismo modo, estoy interesado en el aprendizaje federado para capacitar a un modelo compartido mientras mantiene todos los datos de capacitación locales en los dispositivos de los usuarios intercambiando parámetros del modelo de IA en lugar de los datos sin procesar en sí.Es muy adecuado para los casos de uso en los que los datos se distribuyen en un gran número de partes interesadas, como los teléfonos inteligentes, donde la privacidad del usuario es indispensable.Es menos adecuado para los casos de uso que involucran usar, compartir o analizar grandes cantidades de datos sensibles y centralizados.

El cálculo seguro multipartidista permite a múltiples partes compartir de forma segura sus datos y realizar cálculos en él sin revelar realmente las entradas individuales.Aunque esta técnica ofrece una mayor fidelidad de seguridad que el aprendizaje federado, requiere operaciones criptográficas costosas, lo que resulta en costos de cálculo súper altos.Por lo tanto, es más adecuado para un número menor de participantes y modelos básicos de aprendizaje automático.

Por último, los entornos de ejecución de confianza son realmente un cambio de juego, en mi opinión.Son un paso más allá de la seguridad del software y se basan en enclaves de hardware seguros.Esto significa datos encriptados en los datos encriptados, todo el tiempo que establece la confidencialidad de los datos, la integridad y la certificación del código o función que se ejecuta en el enclave en sí mismo.

5 Q para Kevin Yee, cofundador y CTO de BetterData

Are Baby Carriers Safe? Expert Tips for Parents

How to Fold Baby Trend Stroller: A Beginner’s Guide