Насоки за докладване за ранна клинична оценка на системи за подпомагане на вземането на решения, управлявани от изкуствен интелект: DECIDE-AI

Перспективата за подобрени клинични резултати и по-ефективни здравни системи подхрани бързото нарастване на разработването и оценката на системите за ИИ през последното десетилетие. Тъй като повечето AI системи в рамките на здравеопазването са сложни интервенции, проектирани като системи за подпомагане на клинични решения, а не като автономни агенти, взаимодействията между AI системите, техните потребители и среди за внедряване определят компонентите на общата потенциална ефективност на AI интервенциите. Следователно превеждането на системите с изкуствен интелект от математически показатели до клинична полезност се нуждае от адаптиран, поетапен път за внедряване и оценка, насочен към сложността на това сътрудничество между две независими форми на интелигентност, отвъд мерките за ефективност само¹. Въпреки индикациите, че някои алгоритми, базирани на изкуствен интелект, сега отговарят на точността на човешките експерти в рамките на предклинични in silico проучвания², има малко висококачествени доказателства за подобрено представяне на клиницисти или резултати за пациенти в клиничните проучвания^{3 ,4}. Предложените причини за тази така наречена пропаст на изкуствения интелект⁵ са липсата на необходим експертен опит, необходим за превеждане на инструмент на практика, липса на налично финансиране за превод, общо подценяване на клиничните изследвания като механизъм за превод⁶ и, по-конкретно, незачитане на потенциалната стойност на ранните етапи на клиничната оценка и анализа на човешките фактори⁷.

Предизвикателствата на клиничната оценка на ИИ в ранен етап (Каре 1) са подобни на тези на сложните интервенции, както се съобщава от специалното ръководство¹ на Съвета за медицински изследвания, и хирургичните иновации, както е описано от IDEAL Framework^8,9. Например и в трите случая оценката трябва да вземе предвид потенциала за итеративна модификация на интервенциите и характеристиките на операторите (или потребителите), които ги извършват. В това отношение рамката IDEAL предлага лесно приложими и специфични за етапа препоръки за оценка на хирургически иновации в процес на разработка. IDEAL етапи 2a и 2b, например, са описани като етапи на развитие и проучване, по време на които интервенцията се усъвършенства, кривите на обучение на операторите се анализират и влиянието на променливостта на пациента и оператора върху ефективността се изследва проспективно, преди широкомащабно тестване на ефикасността .

Клиничната оценка на ранния етап на системите за изкуствен интелект също трябва да постави силен акцент върху валидирането на ефективността и безопасността, по подобен начин на фармацевтичните изпитвания във фаза 1 и фаза 2, преди оценката на ефикасността в мащаб във фаза 3. Например малки промените в разпределението на основните данни между обучението на алгоритъма и популациите за клинична оценка (така нареченото изместване на набор от данни) могат да доведат до значителни вариации в клиничното представяне и да изложат пациентите на потенциална неочаквана вреда^10,11.

Насоки за докладване за клиничния ранен етап оценка на системи за подпомагане на вземането на решения, управлявани от изкуствен интелект: DECIDE-AI

Оценките на човешкия фактор (или ергономията) обикновено се извършват в критични за безопасността области като авиацията, военния и енергийния сектор^12,13,14. Техните оценки оценяват ефекта на дадено устройство или процедура върху физическото и когнитивното представяне на техните потребители и обратно. Човешките фактори, като например оценката на използваемостта, са неразделна част от регулаторния процес за нови медицински устройства^15,16 и приложението им към предизвикателства, специфични за ИИ, привлича все по-голямо внимание в медицинската литература^17,18,19,20. Малко клинични проучвания на ИИ обаче съобщават за оценка на човешки фактори³, а оценката на използваемостта на свързана цифрова здравна технология често се извършва с непостоянна методология и отчитане²¹.

Други области на неоптимално докладване на клинични проучвания на ИИ също бяха подчертани наскоро^3,22, като среда за внедряване, потребителски характеристики и процес на подбор, предоставено обучение, идентифициране на основния алгоритъм и разкриване на източници на финансиране . Прозрачното докладване е необходимо за информирана оценка на изследването и за улесняване на възпроизводимостта на резултатите от изследването. В сравнително нова и динамична област като клиничния AI, изчерпателното отчитане също е от ключово значение за изграждането на обща и сравнима база от знания, върху която да се надгражда.

Вече съществуват или са в процес на разработване насоки за докладване на предклинични, in silico проучвания на AI системи, тяхното офлайн валидиране и оценката им в големи сравнителни проучвания^23,24,25,26; но има важен етап на изследване между тях, а именно проучвания, фокусирани върху първоначалната клинична употреба на системи с ИИ, за които в момента не съществуват такива насоки (фиг. 1 и таблица 1). Тази ранна клинична оценка осигурява решаваща оценка на обхвата на клиничната полезност, безопасността и предизвикателствата, свързани с човешкия фактор, в клинични условия на живо. Чрез изследване на потенциалните пречки пред клиничната оценка в мащаб и информиране на дизайна на протокола, тези проучвания също са важни стъпала към окончателни сравнителни изпитвания.

За да преодолеем тази празнина, свикахме международна група от експерти с множество заинтересовани страни в упражнение на Delphi, за да изготвим насоките за докладване на DECIDE-AI. Фокусирайки се върху AI системи, поддържащи, а не заместващи човешкия интелект, DECIDE-AI има за цел да подобри отчитането на проучвания, описващи оценката на базирани на AI системи за подпомагане на вземането на решения по време на ранното им прилагане в малък мащаб в живи клинични условия (т.е. подкрепените решения имат действителен ефект върху грижите за пациентите). Докато TRIPOD-AI, STARD-AI, SPIRIT-AI и CONSORT-AI са специфични за конкретни дизайни на изследване, DECIDE-AI е фокусиран върху етапа на оценка и не предписва фиксиран дизайн на изследването.

Каре 1 Методологични предизвикателства при оценката на базираната на изкуствен интелект система за подпомагане на вземането на решения

Клиничната оценка на базираните на изкуствен интелект системи за подпомагане на вземането на решения представя няколко методологични предизвикателства, всички от които вероятно ще се сблъскат на ранен етап. Това са нуждите за: