Vyhlídky na lepší klinické výsledky a efektivnější zdravotnické systémy podnítily v posledním desetiletí rychlý vzestup ve vývoji a hodnocení systémů umělé inteligence. Protože většina systémů umělé inteligence v rámci zdravotní péče jsou komplexní intervence navržené jako systémy podpory klinického rozhodování, spíše než autonomní agenti, interakce mezi systémy umělé inteligence, jejich uživateli a implementačním prostředím definují složky celkové potenciální účinnosti intervencí umělé inteligence. Převedení systémů umělé inteligence z matematického výkonu na klinickou užitečnost proto vyžaduje přizpůsobený postup postupné implementace a hodnocení, který řeší složitost této spolupráce mezi dvěma nezávislými formami inteligence, která přesahuje samotné měření účinnosti1. Navzdory náznakům, že některé algoritmy založené na umělé inteligenci nyní odpovídají přesnosti lidských expertů v preklinických studiích in silico2, existuje jen málo vysoce kvalitních důkazů pro lepší výkon lékaře nebo výsledky pacientů v klinických studiích3 ,4. Důvody navrhované pro tuto takzvanou AI propast5 jsou nedostatek potřebných odborných znalostí potřebných pro převedení nástroje do praxe, nedostatek finančních prostředků na překlad, obecné nedocenění klinického výzkumu jako mechanismu překladu 6 a konkrétněji ignorování potenciální hodnoty raných fází klinického hodnocení a analýzy lidských faktorů7.
Výzvy klinického hodnocení umělé inteligence v rané fázi (rámeček 1) jsou podobné jako u komplexních intervencí, jak uvádí doporučení Rady pro lékařský výzkum1, a chirurgické inovace, jak je popsáno v IDEAL Framework8,9. Například ve všech třech případech musí hodnocení vzít v úvahu potenciál pro opakovanou modifikaci zásahů a charakteristiky operátorů (nebo uživatelů), kteří je provádějí. V tomto ohledu nabízí rámec IDEAL snadno implementovatelná a etapově specifická doporučení pro hodnocení vyvíjených chirurgických inovací. Fáze IDEAL 2a a 2b jsou například popsány jako vývojové a průzkumné fáze, během nichž se intervence zpřesňuje, analyzují se křivky učení operátorů a prospektivně se zkoumá vliv variability pacienta a operátora na účinnost, před testováním účinnosti ve velkém měřítku. .
Počasé klinické hodnocení systémů umělé inteligence by také mělo klást velký důraz na validaci výkonu a bezpečnosti, podobným způsobem jako ve fázi 1 a fázi 2 farmaceutických studií, před hodnocením účinnosti na měřítku ve fázi 3. Například malé změny v distribuci základních dat mezi populací pro trénování algoritmů a klinické hodnocení (takzvaný posun datové sady) mohou vést k podstatným změnám v klinické výkonnosti a vystavit pacienty potenciální neočekávané újmě10,11.
Hodnocení lidských faktorů (nebo ergonomie) se běžně provádějí v oblastech kritických z hlediska bezpečnosti, jako je letectví, vojenství a energetika12,13,14. Jejich hodnocení hodnotí účinek zařízení nebo postupu na fyzický a kognitivní výkon jejich uživatelů a naopak. Lidské faktory, jako je hodnocení použitelnosti, jsou nedílnou součástí regulačního procesu pro nové zdravotnické prostředky15,16 a jejich aplikace na výzvy specifické pro umělou inteligenci přitahuje v lékařské literatuře stále větší pozornost 17,18,19,20. Jen málo klinických studií umělé inteligence však popsalo hodnocení lidských faktorů3 a hodnocení použitelnosti souvisejících digitálních zdravotnických technologií se často provádí s nestálou metodikou a přehledy21.
Nedávno byly zdůrazněny i další oblasti neoptimálního vykazování klinických studií umělé inteligence3,22, jako je implementační prostředí, uživatelské charakteristiky a proces výběru, poskytované školení, identifikace základních algoritmů a zveřejnění zdrojů financování . Transparentní zprávy jsou nezbytné pro informované hodnocení studie a pro usnadnění reprodukovatelnosti výsledků studie. V relativně novém a dynamickém oboru, jako je klinická umělá inteligence, je komplexní reporting také klíčem k vybudování společné a srovnatelné znalostní základny, na které lze stavět.
Pokyny pro vykazování preklinických in silico studií systémů umělé inteligence, jejich offline validace a jejich vyhodnocování ve velkých srovnávacích studiích již existují nebo jsou ve vývoji23,24,25,26; mezi nimi však existuje důležitá fáze výzkumu, konkrétně studie zaměřující se na počáteční klinické použití systémů umělé inteligence, pro které v současnosti žádné takové pokyny neexistují (obr. 1 a tabulka 1). Toto rané klinické hodnocení poskytuje zásadní hodnocení rozsahu klinické užitečnosti, bezpečnosti a lidských faktorů v živých klinických podmínkách. Zkoumáním potenciálních překážek klinického hodnocení ve velkém měřítku a informativním návrhem protokolu jsou tyto studie také důležitými odrazovými můstky k definitivním srovnávacím studiím.
Abychom tuto mezeru vyřešili, svolali jsme mezinárodní, mnohostrannou skupinu odborníků v rámci cvičení v Delphi, abychom vytvořili směrnici pro podávání zpráv DECIDE-AI. DECIDE-AI se zaměřuje na systémy umělé inteligence, které podporují, spíše než nahrazují lidskou inteligenci, a snaží se zlepšit podávání zpráv o studiích popisujících hodnocení systémů pro podporu rozhodování založených na umělé inteligenci během jejich rané implementace v malém měřítku v živých klinických podmínkách (tj. podporovaná rozhodnutí mají skutečný vliv na péči o pacienty). Zatímco TRIPOD-AI, STARD-AI, SPIRIT-AI a CONSORT-AI jsou specifické pro konkrétní návrhy studií, DECIDE-AI se zaměřuje na fázi hodnocení a nepředepisuje pevný design studie.
Rámeček 1 Metodologické problémy hodnocení systému podpory rozhodování založeného na AI
Klinické hodnocení systémů podpory rozhodování založených na AI představuje několik metodologických problémů, se kterými se pravděpodobně setkáme v rané fázi. Jedná se o potřeby: