Näkymät parantuneista kliinisistä tuloksista ja tehokkaammista terveydenhuoltojärjestelmistä ovat vauhdittaneet tekoälyjärjestelmien nopeaa kehitystä ja arviointia viimeisen vuosikymmenen aikana. Koska useimmat terveydenhuollon tekoälyjärjestelmät ovat monimutkaisia interventioita, jotka on suunniteltu kliinisiksi päätöksenteon tukijärjestelmiksi autonomisten tekijöiden sijaan, tekoälyjärjestelmien, niiden käyttäjien ja toteutusympäristöjen välinen vuorovaikutus määrittelee AI-interventioiden yleisen potentiaalisen tehokkuuden. Siksi tekoälyjärjestelmien tuominen matemaattisesta suorituskyvystä kliiniseen käyttökelpoisuuteen vaatii mukautetun, vaiheittaisen toteutus- ja arviointipolun, joka vastaa kahden itsenäisen älykkyyden muodon välisen yhteistyön monimutkaisuuteen pelkkien tehokkuusmittausten lisäksi1. Huolimatta viitteistä, joiden mukaan jotkin tekoälyyn perustuvat algoritmit vastaavat nykyään ihmisasiantuntijoiden tarkkuutta prekliinisissä in silico -tutkimuksissa2, kliinisissä tutkimuksissa on vain vähän korkealaatuista näyttöä kliinisen lääkärin suorituskyvyn tai potilaiden tuloksista3 ,4. Tälle niin sanotulle tekoälykuilulle5 ehdotetaan syitä, joiden mukaan työkalun muuntamiseen käytäntöön tarvittava asiantuntemus, kääntämiseen käytettävissä olevan rahoituksen puute, kliinisen tutkimuksen yleinen aliarviointi käännösmekanismina 6 ja tarkemmin sanottuna kliinisen arvioinnin ja inhimillisten tekijöiden analyysin varhaisten vaiheiden mahdollisen arvon huomiotta jättäminen7.
Varhaisen vaiheen kliinisen tekoälyn arvioinnin (laatikko 1) haasteet ovat samankaltaisia kuin monimutkaisissa interventioissa, kuten Medical Research Councilin erityisessä ohjeessa1 on raportoitu, ja kirurgisten innovaatioiden haasteet, kuten tutkimuslaitos kuvailee. IDEAL Framework8,9. Esimerkiksi kaikissa kolmessa tapauksessa arvioinnissa on otettava huomioon interventioiden iteratiivisen muuttamisen mahdollisuudet ja niitä suorittavien toimijoiden (tai käyttäjien) ominaisuudet. Tältä osin IDEAL-kehys tarjoaa helposti toteutettavia ja vaihekohtaisia suosituksia kehitteillä olevien kirurgisten innovaatioiden arviointiin. Esimerkiksi IDEAL-vaiheet 2a ja 2b kuvataan kehitys- ja tutkimusvaiheiksi, joiden aikana interventiota jalostetaan, operaattorien oppimiskäyriä analysoidaan ja potilaan ja operaattorin vaihtelun vaikutusta tehokkuuteen tutkitaan prospektiivisesti, ennen laajamittaista tehon testausta. .
Tekoälyjärjestelmien varhaisen vaiheen kliinisen arvioinnin tulisi myös painottaa voimakkaasti suorituskyvyn ja turvallisuuden validointia, samalla tavalla kuin vaiheen 1 ja vaiheen 2 lääketutkimukset, ennen kuin tehokkuus arvioidaan mittakaavassa vaiheessa 3. Esimerkiksi pienet muutokset taustalla olevien tietojen jakautumisessa algoritmikoulutuksen ja kliinisen arviointipopulaatioiden välillä (niin sanottu tietojoukon muutos) voivat johtaa merkittäviin vaihteluihin kliinisessä suorituskyvyssä ja altistaa potilaat mahdollisille odottamattomille haitoille10,11.
Ihmistekijöiden (tai ergonomian) arviointeja tehdään yleisesti turvallisuuden kannalta kriittisillä aloilla, kuten lento-, sotilas- ja energia-aloilla12,13,14. Heidän arvioinneissaan arvioidaan laitteen tai toimenpiteen vaikutusta käyttäjien fyysiseen ja kognitiiviseen suorituskykyyn ja päinvastoin. Inhimilliset tekijät, kuten käytettävyyden arviointi, ovat olennainen osa uusien lääkinnällisten laitteiden sääntelyprosessia15,16, ja niiden soveltaminen tekoälykohtaisiin haasteisiin kiinnittää yhä enemmän huomiota lääketieteellisessä kirjallisuudessa 17,18,19,20. Harvat kliiniset tekoälytutkimukset ovat kuitenkin raportoineet inhimillisten tekijöiden arvioinnista3, ja siihen liittyvän digitaalisen terveysteknologian käytettävyyden arvioinnissa käytetään usein epäjohdonmukaista metodologiaa ja raportointia21.
Myös muita kliinisten tekoälytutkimusten epäoptimaalisen raportoinnin osa-alueita on viime aikoina korostettu3,22, kuten toteutusympäristö, käyttäjän ominaisuudet ja valintaprosessi, tarjottu koulutus, taustalla olevan algoritmin tunnistaminen ja rahoituslähteiden paljastaminen. . Läpinäkyvä raportointi on tarpeen tietoisen tutkimusarvioinnin ja tutkimustulosten toistettavuuden helpottamiseksi. Suhteellisen uudella ja dynaamisella alalla, kuten kliinisen tekoälyn, kattava raportointi on myös avainasemassa yhteisen ja vertailukelpoisen tietopohjan rakentamisessa.
Ohjeita tekoälyjärjestelmien prekliinisistä in silico -tutkimuksista, niiden offline-validoinnista ja niiden arvioinnista suurissa vertailututkimuksissa on jo olemassa tai kehitteillä.23,24,25,26; mutta näiden välillä on tärkeä tutkimusvaihe, nimittäin tekoälyjärjestelmien kliiniseen alkukäyttöön keskittyvät tutkimukset, joille ei tällä hetkellä ole tällaista ohjeistusta (kuva 1 ja taulukko 1). Tämä varhainen kliininen arviointi tarjoaa ratkaisevan arvioinnin kliinisen hyödyn, turvallisuuden ja inhimillisten tekijöiden haasteista elävässä kliinisessä ympäristössä. Tutkimalla mahdollisia esteitä kliiniselle arvioinnille laajassa mittakaavassa ja tiedottamalla protokollasuunnittelusta nämä tutkimukset ovat myös tärkeitä ponnahduskiviä kohti lopullisia vertailevia tutkimuksia.
Tämän puutteen korjaamiseksi kutsuimme koolle kansainvälisen, useiden sidosryhmien asiantuntijaryhmän Delphi-harjoitukseen laatimaan DECIDE-AI-raportointiohjeet. DECIDE-AI keskittyy tekoälyjärjestelmiin, jotka tukevat sen sijaan, että ne korvaavat ihmisälyä. Sen tavoitteena on parantaa tekoälypohjaisten päätöksentekojärjestelmien arviointia kuvaavien tutkimusten raportointia niiden varhaisessa, pienimuotoisessa käyttöönotossa elävissä kliinisissä ympäristöissä (eli tuetuilla päätöksillä on todellinen vaikutus potilaan hoitoon). Siinä missä TRIPOD-AI, STARD-AI, SPIRIT-AI ja CONSORT-AI ovat erityisiä tutkimussuunnitelmia, DECIDE-AI keskittyy arviointivaiheeseen eikä edellytä kiinteää tutkimussuunnitelmaa.
Laatikko 1 Tekoälypohjaisen päätöksenteon tukijärjestelmän arvioinnin metodologiset haasteet
Tekoälypohjaisten päätöksenteon tukijärjestelmien kliiniseen arviointiin liittyy useita metodologisia haasteita, jotka kaikki tulevat todennäköisesti vastaan varhaisessa vaiheessa. Nämä ovat tarpeita: