Center for Data Innovation puhui Kevin Yeen kanssa, joka on synteettiseen dataan keskittyvän Singaporessa toimivan Beterdatan perustaja ja teknologiajohtaja. Yee keskusteli joistakin yksityisyyttä säilyttävistä teknologioista, joita hän odottaa tulevan tulevina vuosina.
Gillian Diebold: Kuinka synteettinen data voi auttaa yrityksiä innovoimaan?
Kevin Yee: Olet luultavasti kuullut lauseen, että data on uusi öljy – omaisuus, jolla on merkittävää arvoa nykyisen käytön lisäksi. Monilla ihmisillä on tämä käsitys, koska yritykset käyttävät dataa kehittääkseen, kokeillakseen ja innovoidakseen. Toisaalta tietovuodot, kuten öljyvuodot, voivat olla erittäin tuhoisia organisaatioille, ihmisille ja yhteiskunnalle.
Yritysten on nyt innovoitava dataa, joka sisältää arvokkaita näkemyksiä asiakkaan käyttäytymisestä, mutta niiden on myös käsiteltävä asiaan liittyvät riskit ja käyttäjien jatkuvasti muuttuvat odotukset. Tämä sisältää turvallisuusvastuut ja yksityisyyteen liittyvät huolenaiheet, varsinkin kun tiedot sisältävät henkilökohtaisia tunnistetietoja (PII), jotka ovat alttiina vuodoille, jotka voivat asettaa organisaation maine- ja sääntelyriskiin.
Tiedon aineettomuuden vuoksi organisaatioilla ei ole jäsenneltyä tapaa mitata tiedon käytön riski-hyötysuhdetta. Tämä johtaa usein konservatiivisempaan lähestymistapaan, jossa tiedot siivotaan tietokantoihin – käyttämättöminä ja ilman vipuvaikutusta. Kyse on epävarmuudesta, ja me kaikki tiedämme, että epävarmuutta ei voida mitata määrällisesti.
Kaikki tämä saattaa aluksi kuulostaa pelottavalta, mutta juuri tässä synteettiset tiedot ovat valokeilassa. Synteettinen data auttaa organisaatioita tekemään datasta vapaasti saatavilla ja siirrettävissä tiimien, yritysten ja kansainvälisten rajojen yli. Kehittyneet tekoälytekniikat, kuten GAN-verkot, pystyvät tuottamaan synteettistä dataa, joka säilyttää alkuperäisen tiedon tilastolliset ominaisuudet ja mallit ja varmistaa samalla yksityisyyden, koska sillä on lähes nolla uudelleentunnistumisen riski verrattuna nykyisiin tietojen anonymisointimenetelmiin, joissa riski on super korkea.
Riippumatta siitä, tuetaan tekoälyn ja koneoppimisen (AI/ML) kehitystä tai jaetaan tietoja sisäisesti ja ulkoisesti, keinotekoisesti luotua synteettistä dataa voidaan käyttää todellisen datan korvikkeena täysin käytettävyyden ja vaatimustenmukaisuuden avulla. Organisaatiot voivat nyt innovoida synteettisellä tiedolla ilman todellisen tiedon käyttämisen riskejä ja vaatimustenmukaisuuden esteitä.
Diebold: Miten erillinen yksityisyys suojaa käyttäjätietoja?
Joo: Tekoälyn näkökulmasta tarkasteltuna differentiaalinen yksityisyys on yksi vallitsevista tekniikoista, joita käytetään estämään syväoppimismalleja paljastamasta käyttäjien yksityisiä tietoja tietojoukoissa, joita käytetään heidän kouluttamiseensa.
Cynthia Dworkin Microsoft Researchin edelläkävijänä teknologiajätit ovat ottaneet sen laajalti käyttöön "oppiakseen" laajennetusta käyttäjäyhteisöstä ilman, että hän oppii tietystä henkilöistä. Differentiaalisesti yksityisellä mallilla tuotettu synteettinen tietojoukko siis suojaa käyttäjätietoja tarjoamalla julkisesti saatavilla olevia matemaattisia todisteita tukevia tietosuojatakuita säilyttäen samalla saman kaavan ja suurimman osan alkuperäisen tietojoukon tilastollisista ominaisuuksista.
Avain koko tekniikkaan tässä on yksityisyyden ja tarkkuuden tasapainottaminen parametrilla nimeltä ε (epsilon) – mitä pienempi ε-arvo, sitä paremmin yksityisyys säilyy, mutta sitä pienempi on tietojen tarkkuus. Huolellisesti valitulla ε-arvolla on mahdollista luoda synteettinen tietojoukko melko korkealla hyödyllisyydellä varmistaen samalla riittävän yksityisyyden.
Tämä tarkoittaa, että erilaiset yksityiset synteettiset tiedot vähentävät erilaisia tietosuojahyökkäyksiä, kuten jäsenyyspäätelmä- ja malliinversiohyökkäyksiä, jotka voivat mahdollisesti rekonstruoida koulutusdatan osittain tai kokonaan, koska tietovuodon opetetusta tekoälymallista.
Diebold: Voitko selittää, kuinka synteettiset tiedot voivat johtaa "reilumpiin" tekoälymalleihin? Mitä "oikeudenmukaisuus" tarkoittaa?
Joo: Tämä aihe herättää keskustelua, eikä siinä ole oikeita tai vääriä vastauksia. Reiluus on monimutkainen käsite, joka tarkoittaa eri asioita eri yhteyksissä eri ihmisille. Sanotaan, että tekoälyn harjoittajille oikeudenmukaisuutta tarkastellaan yleensä kvantitatiivisesta näkökulmasta, jolloin algoritmeihin kohdistuu oikeudenmukaisuusrajoituksia, joihin liittyy arkaluonteisia ja laillisesti suojattuja ominaisuuksia. Tavoitteena on varmistaa, että algoritmit toimivat hyvin tosielämässä, samalla kun ne kohtelevat ihmisiä "reilusti" ja ilman ennakkoluuloja suhteessa rotuun, uskontoon, työpaikkaan, tuloihin, sukupuoleen; lista jatkuu.
On reilua sanoa, että harhaan ei ole yhtä syytä eikä yhtä ainoaa ratkaisua. Hyvä parannuskeino voi kuitenkin olla lähteessään – itse datassa. Yksi tapa vähentää harhaa tietojoukossa on varmistaa demografinen pariteetti suojattujen alaryhmien välillä, joissa suojattuun alaryhmään kuulumisella ei ole korrelaatiota loppupään AI/ML-mallin ennakoivan tuloksen kanssa. Yksinkertaisesti sanottuna tekoälymallin ei pitäisi syrjiä mitään attribuutteja, ja sitä varten tarvitaan "kiinteä" versio tietojoukosta.
Oletetaan, että meillä on kansalaisten tulotietojoukko, jossa demografinen pariteetti ei täyty suojatussa sukupuolimuuttujassa. Toisin sanoen korkeatuloisten miesten osuus on suurempi kuin naisten. Biasin korjaaminen datatasolla voidaan saavuttaa synteettisellä tiedolla, koska tiedon generointiprosessi on täysin hallinnassa. Tämä antaa meille mahdollisuuden tuottaa yhtä suuren osuuden miehiä ja naisia sekä korkea- että pienituloisten luokassa, jotta voidaan poistaa "sukupuolen" ja "tulon" välinen korrelaatio ja lieventää tulojen harhaa suhteessa sukupuoleen.
Vihan vähentäminen kvantitatiivisen näkökulman avulla on vain yksi askel. Koska oikeudenmukaisuus on lain, yhteiskuntatieteiden ja teknologian risteyksessä, oikeudenmukaisempien tekoälymallien kysymystä ei voida käsitellä vain yhdellä tavalla, ja se vaatisi joukon erilaisia sidosryhmiä esittämään näkökulmansa päätösten ja tulevien politiikkojen muokkaamiseen.
Diebold: Mitkä ovat synteettisen tiedon reaalimaailman käyttötapaukset?
Joo: Itse uskon, että synteettinen data on avoimen datan innovaation ja vastuullisen datatalouden tulevaisuus. Käyttötapauksia on paljon, mutta haluan jakaa yhden, joka on lähellä sydäntäni. Oletetaan, että olet kasvojentunnistusyritys, joka käyttää kasvokuvia tekoälymallin kouluttamiseen ja ihmisten luokitteluun. Oletetaan, että suurin osa kuvista kuuluu tiettyyn ihosävyyn, mikä johtaa korkeaan luokittelutarkkuuteen kyseiselle ihosävylle, ei muille. Synteettistä dataa käyttämällä voidaan luoda kaikenlaisia ihonvärisiä kasvoja, ja tekoälymallia voidaan parantaa tunnistamaan paremmin aiemmin tiedon puutteen vuoksi väärin luokitellut ihmiset.
Laajemmalla tasolla Amazon käyttää synteettistä dataa Amazon Go -näöntunnistuksen ja Alexan kielijärjestelmien kouluttamiseen. Roche, yksi alan johtavista lääkeyhtiöistä, käyttää synteettisiä lääketieteellisiä tietoja nopeampaan ja halvempaan kliiniseen tutkimukseen ja kokeisiin. Google Waymo käyttää synteettisiä tietoja autonomisten ajoneuvojensa kouluttamiseen. Ford yhdistää pelimoottorit synteettisiin tietoihin tekoälyharjoitteluun – kuinka siistiä se on. Deloitte rakentaa tarkempia tekoälymalleja luomalla keinotekoisesti 80 prosenttia koulutustiedoista, ja American Express käyttää synteettisiä taloustietoja parantaakseen petosten havaitsemisalgoritmeja.
Diebold: Mitkä muut yksityisyyttä säilyttävät tekniikat ovat tärkeitä tulevina vuosina synteettisten tietojen lisäksi?
Joo: Koska yli 120 maata on jo hyväksynyt tietosuojasäännökset, yksityisyyttä säilyttävät tekniikat (PPT) tai yksityisyyttä lisäävät tekniikat (PET) tulevat vain entistä tärkeämmiksi tulevina vuosina. Nämä tekniikat täydentävät toisiaan erilaisten ongelmien ratkaisemisessa ja ovat keskeinen osa tietoihin liittyvien sääntelyyn liittyvien, eettisten ja sosiaalisten arkaluonteisten kysymysten ratkaisemista. Synteettisten tietojen ja erilaisen yksityisyyden lisäksi olen innoissani seuraavista uusista teknologioista:
Ensinnäkin lohkoketju, jolla seurataan tietojen alkuperää, läpinäkyvyyttä ja ihmisten henkilötietojen ei-säilytystä. Mielestäni lohkoketjulla (web3) on oikeat työkalut tietoturvaan ja yksityisyyteen datan demokratisoimiseksi.
Samalla tavalla olen kiinnostunut yhteisestä oppimisesta opettamaan jaettua mallia ja pitämään kaikki harjoitustiedot paikallisesti käyttäjien laitteilla vaihtamalla tekoälymallin parametreja itse raakadatan sijaan. Se sopii hyvin käyttötapauksiin, joissa dataa jaetaan useiden sidosryhmien kesken, kuten älypuhelimiin, joissa käyttäjien yksityisyys on välttämätöntä. Se ei sovellu käyttötapauksiin, joissa käytetään, jaetaan tai analysoidaan suuria määriä arkaluonteista, keskitettyä tietoa.
Suojatun monen osapuolen laskennan avulla useat osapuolet voivat turvallisesti jakaa tietonsa ja suorittaa niille laskelmia paljastamatta yksittäisiä syötteitä. Vaikka tämä tekniikka tarjoaa korkeamman turvatarkkuuden kuin yhdistetty oppiminen, se vaatii kalliita salaustoimintoja, mikä johtaa erittäin korkeisiin laskentakustannuksiin. Siksi se sopii paremmin pienemmälle osallistujamäärälle ja koneoppimisen perusmalleille.
Luotetut suoritusympäristöt ovat mielestäni todella muuttaneet peliä. Ne ovat askeleen ohjelmistosuojausta pidemmälle ja perustuvat suojattuihin laitteistoalueisiin. Tämä tarkoittaa salattua dataa sisään ja salattua dataa ulos – samalla varmistaen tietojen luottamuksellisuuden, eheyden ja koodin tai toiminnon varmentamisen itse erillisalueessa.