5 Q за Кевин Йи, съосновател и главен технически директор на betterdata

Центърът за иновации в данните разговаря с Кевин Йи, съосновател и главен технически директор на betterdata, базирана в Сингапур стартираща компания, фокусирана върху синтетичните данни. Yee обсъди някои от технологиите за запазване на поверителността, които очаква да се появят през следващите години.

Джилиан Диболд: Как синтетичните данни могат да помогнат на бизнеса да прави иновации?

Кевин Йи: Вероятно сте чували фразата, че данните са новото масло – актив, който има значителна стойност отвъд настоящата си употреба. Много хора имат това възприятие, защото предприятията използват данни за развитие, експериментиране и иновации. От друга страна, изтичането на данни, като изтичането на петрол, може да бъде изключително опустошително за организациите, хората и обществото.

Бизнесът сега трябва да въвежда иновации с данни, които съдържат ценна информация за поведението на клиентите, но също така трябва да се справят с свързаните рискове и непрекъснато променящия се спектър от потребителски очаквания. Това включва задължения за сигурност и опасения за поверителността, особено когато данните съдържат лична информация (PII), уязвима за изтичане, което може да изложи организацията на репутационен и регулаторен риск.

Поради неосезаемостта на данните организациите нямат структуриран начин за измерване на съотношението риск-възнаграждение от използването на данни. Това често води до по-консервативен подход, при който данните са изолирани в базите данни - неизползвани и без ливъридж. Това е случай на несигурност и всички знаем, че несигурността не може да бъде количествено определена.

Всичко това може да звучи обезсърчително в началото, но точно тук синтетичните данни привличат вниманието. Синтетичните данни помагат на организациите да направят данните свободно достъпни и преносими между екипи, фирми и международни граници. Усъвършенстваните AI техники като генеративни състезателни мрежи (GAN) са в състояние да произвеждат синтетични данни, които запазват статистическите свойства и модели на оригиналните данни, като същевременно гарантират поверителност, като имат почти нулев риск от повторна идентификация в сравнение с настоящите методи за анонимизиране на данни, при които рискът е супер голям.

Независимо дали за подкрепа на разработването на изкуствен интелект и машинно обучение (AI/ML) или за споделяне на данни вътрешно и външно, изкуствено генерираните синтетични данни могат да се използват като заместител на реални данни с пълна достъпност и съответствие. Така че организациите вече могат да правят иновации със синтетични данни без риска и препятствията за съответствие при използването на реални данни.

Diebold: Как диференциалната поверителност защитава потребителските данни?

Да: Говорейки от гледна точка на AI, диференциалната поверителност е една от преобладаващите техники, използвани за предотвратяване на моделите за задълбочено обучение да разкрият личната информация на потребителите в наборите от данни, използвани за тяхното обучение.

Създаден от Синтия Дуърк в Microsoft Research, той е широко възприет от технологичните гиганти за „научаване“ за разширената потребителска общност, без да научава за конкретни лица. И така, синтетичен набор от данни, произведен от различен частен модел, защитава потребителските данни, като предоставя гаранции за поверителност, подкрепени от публично достъпни математически доказателства, като същевременно запазва същата схема и поддържа повечето от статистическите свойства на оригиналния набор от данни.

Ключът към цялата техника тук се крие в балансирането на поверителността и точността с параметър, наречен ε (епсилон) – колкото по-малка е стойността на ε, толкова по-голяма поверителността се запазва, но толкова по-ниска е точността на данните. С внимателно избрана стойност на ε е възможно да се създаде синтетичен набор от данни с доста висока полезност, като същевременно се гарантира достатъчна поверителност.

Това означава, че диференцираните частни синтетични данни смекчават различни атаки срещу поверителността, като извод за членство и атаки за инверсия на модела, които потенциално могат частично или изцяло да възстановят данните за обучение поради изтичане на информация от обучен AI модел.

5 Q за Кевин Йи, съ- основател и технически директор на betterdata

Diebold: Можете ли да обясните как синтетичните данни могат да доведат до „по-справедливи“ AI модели? Какво означава „справедливост“?

Да: Тази тема е много подходяща за дебат, без правилни или грешни отговори. Справедливостта е сложна концепция, която означава различни неща в различен контекст за различните хора. Да кажем, че за практикуващите AI справедливостта обикновено се разглежда от количествена гледна точка, където алгоритмите са подложени на ограничения за справедливост, включващи чувствителни и законово защитени атрибути. Целта е да се гарантира, че алгоритмите работят добре в реалния живот, като същевременно третират хората „справедливо“ и без пристрастия по отношение на атрибути като раса, религия, работа, доходи, пол; списъкът продължава.

Справедливо е да се каже, че няма единствена причина за пристрастие и следователно няма едно единствено решение. Въпреки това, едно добро лекарство може да бъде в неговия източник - самите данни. Един от начините за намаляване на пристрастията в набор от данни е да се осигури демографски паритет в защитени подгрупи, където членството в защитена подгрупа няма връзка с предсказуемия резултат от AI/ML модел надолу по веригата. Просто казано, един AI модел не трябва да дискриминира нито един атрибут и за това е много необходима „фиксирана“ версия на набор от данни.

Да приемем, че имаме набор от данни за доходите на граждани, където демографският паритет не е удовлетворен в защитената променлива „пол“. С други думи, има по-висок дял на мъжете в сравнение с жените в категорията с високи доходи. Коригирането на отклонение на ниво данни може да се постигне със синтетични данни поради пълния контрол върху процеса на генериране на данни. Това ни позволява да генерираме равен дял мъже и жени както в категорията с високи, така и с ниски доходи, за да премахнем връзката между „пола“ и „дохода“ и смекчаваме отклонението на доходите по отношение на пола.

Намаляването на пристрастията чрез количествена гледна точка е само една стъпка. Тъй като справедливостта лежи в пресечната точка на правото, социалните науки и технологиите, въпросът за по-справедливите модели на ИИ не може да бъде разгледан само чрез нито един път и ще изисква набор от различни заинтересовани страни да предоставят своите перспективи за оформяне на решения и бъдещи политики.

Diebold: Кои са някои реални случаи на употреба на синтетични данни?

Да: Аз лично вярвам, че синтетичните данни са бъдещето за иновациите с отворени данни и отговорната икономика на данните. Има много случаи на употреба, но позволете ми да споделя един, който ми допада на сърцето. Да кажем, че сте компания за разпознаване на лица, която използва изображения на лица, за да обучи AI модел и да класифицира хората. Нека приемем, че повечето изображения принадлежат на конкретен тон на кожата, което води до висока точност на класификацията за този тон на кожата, а не за останалите. Чрез използване на синтетични данни могат да се генерират лица с всякакви тонове на кожата и моделът на AI може да бъде подобрен, за да открива по-добре хора, които преди това са били неправилно класифицирани поради липса на данни.

Говорейки сега на по-широко ниво, Amazon използва синтетични данни, за да обучи визуалното разпознаване на Amazon Go и езиковите системи на Alexa. Roche, една от водещите в индустрията фармацевтични компании, използва синтетични медицински данни за по-бързи и по-евтини клинични изследвания и изпитвания. Google Waymo използва синтетични данни, за да обучи своите автономни превозни средства. Ford комбинира двигатели за игри със синтетични данни за обучение с изкуствен интелект – колко страхотно е това. Deloitte изгражда по-точни AI модели чрез изкуствено генериране на 80 процента от данните за обучение, а American Express използва синтетични финансови данни за подобряване на алгоритмите за откриване на измами.

Diebold: Освен синтетичните данни, какви други технологии за запазване на поверителността ще бъдат важни през следващите години?

Да: Тъй като повече от 120 държави вече са приели разпоредби за защита на данните, технологиите за запазване на поверителността (PPT) или технологиите за подобряване на поверителността (PET) ще стават все по-важни през идните години. Тези технологии ще се допълват взаимно за решаване на различни проблеми и ще бъдат в основата на преодоляването на регулаторната, етичната и социалната чувствителност около данните. Освен синтетичните данни и диференциалната поверителност, аз се вълнувам от следните нови технологии:

Първо, блокчейн за проследяване на произхода на данните, прозрачността и собствеността без попечителство върху личните данни на хората. Мисля, че блокчейн (web3) има правилните инструменти за сигурност и поверителност за демократизиране на данните.

По същия начин се интересувам от обединено обучение за обучение на споделен модел, като същевременно запазвам всички данни за обучение локално на устройствата на потребителите чрез обмен на параметри на AI модел вместо самите необработени данни. Той е много подходящ за случаи на употреба, при които данните се разпространяват между голям брой заинтересовани страни, като смартфони, където поверителността на потребителите е незаменима. Той е по-малко подходящ за случаи на употреба, включващи използване, споделяне или анализиране на големи количества чувствителни, централизирани данни.

Защитеното многостранно изчисление позволява на множество страни сигурно да споделят своите данни и да извършват изчисления върху тях, без действително да разкриват отделните входове. Въпреки че тази техника предлага по-висока точност на сигурността от федеративното обучение, тя изисква скъпи криптографски операции, което води до супер високи изчислителни разходи. Следователно е по-подходящ за по-малък брой участници и основни модели на машинно обучение.

Накрая, според мен доверените среди за изпълнение наистина променят играта. Те са стъпка отвъд сигурността на софтуера и са базирани на сигурни хардуерни анклави. Това означава криптирани данни на вход и криптирани данни навън – през цялото време се установява поверителността на данните, целостта и удостоверяването на кода или функцията, които се изпълняват в самия анклав.