A perspectiva de melhores resultados clínicos e sistemas de saúde mais eficientes alimentou um rápido aumento no desenvolvimento e avaliação de sistemas de IA na última década. Como a maioria dos sistemas de IA na área da saúde são intervenções complexas projetadas como sistemas de suporte à decisão clínica, em vez de agentes autônomos, as interações entre os sistemas de IA, seus usuários e os ambientes de implementação são componentes que definem a eficácia potencial geral das intervenções de IA. Portanto, levar os sistemas de IA do desempenho matemático para a utilidade clínica requer um caminho de implementação e avaliação adaptado e gradual, abordando a complexidade dessa colaboração entre duas formas independentes de inteligência, além de medidas de eficácia isoladas1. Apesar das indicações de que alguns algoritmos baseados em IA agora correspondem à precisão de especialistas humanos em estudos in silico pré-clínicos2, há poucas evidências de alta qualidade para melhorar o desempenho clínico ou os resultados dos pacientes em estudos clínicos3 ,4. As razões propostas para esse chamado abismo de IA5 são a falta de experiência necessária para traduzir uma ferramenta em prática, falta de financiamento disponível para tradução, uma subestimação geral da pesquisa clínica como um mecanismo de tradução 6 e, mais especificamente, uma desconsideração do valor potencial dos estágios iniciais da avaliação clínica e da análise de fatores humanos7.
Os desafios da avaliação clínica de IA em estágio inicial (Caixa 1) são semelhantes aos de intervenções complexas, conforme relatado pela orientação dedicada do Conselho de Pesquisa Médica1, e inovação cirúrgica, conforme descrito pelo Estrutura IDEAL8,9. Por exemplo, em todos os três casos, a avaliação precisa considerar o potencial de modificação iterativa das intervenções e as características dos operadores (ou usuários) que as executam. A esse respeito, a estrutura IDEAL oferece recomendações prontamente implementáveis e específicas para a avaliação de inovações cirúrgicas em desenvolvimento. Os estágios IDEAL 2a e 2b, por exemplo, são descritos como estágios de desenvolvimento e exploratórios, durante os quais a intervenção é refinada, as curvas de aprendizado dos operadores são analisadas e a influência da variabilidade do paciente e do operador na eficácia é explorada prospectivamente, antes dos testes de eficácia em larga escala .
A avaliação clínica em estágio inicial de sistemas de IA também deve enfatizar fortemente a validação de desempenho e segurança, de maneira semelhante aos ensaios farmacêuticos de fase 1 e fase 2, antes da avaliação da eficácia em escala na fase 3. Por exemplo, pequenos mudanças na distribuição dos dados subjacentes entre o treinamento do algoritmo e as populações de avaliação clínica (o chamado deslocamento do conjunto de dados) podem levar a variações substanciais no desempenho clínico e expor os pacientes a possíveis danos inesperados10,11.
Avaliações de fatores humanos (ou ergonomia) são comumente realizadas em áreas críticas de segurança, como aviação, setores militares e de energia12,13,14. Suas avaliações avaliam o efeito de um dispositivo ou procedimento no desempenho físico e cognitivo de seus usuários e vice-versa. Fatores humanos, como avaliação de usabilidade, são parte integrante do processo regulatório para novos dispositivos médicos15,16, e sua aplicação a desafios específicos de IA está atraindo atenção crescente na literatura médica 17,18,19,20. No entanto, poucos estudos clínicos de IA relataram a avaliação de fatores humanos3, e a avaliação de usabilidade da tecnologia digital de saúde relacionada é frequentemente realizada com metodologia e relatórios inconstantes21.
Outras áreas de relatórios subótimos de estudos clínicos de IA também foram recentemente destacadas3,22, como ambiente de implementação, características do usuário e processo de seleção, treinamento fornecido, identificação de algoritmo subjacente e divulgação de fontes de financiamento . Relatórios transparentes são necessários para uma avaliação informada do estudo e para facilitar a reprodutibilidade dos resultados do estudo. Em um campo relativamente novo e dinâmico, como a IA clínica, relatórios abrangentes também são essenciais para construir uma base de conhecimento comum e comparável a ser construída.
Já existem ou estão em desenvolvimento diretrizes para o relato de estudos pré-clínicos in silico de sistemas de IA, sua validação off-line e sua avaliação em grandes estudos comparativos23,24,25,26; mas há uma etapa importante de pesquisa entre eles, ou seja, estudos com foco no uso clínico inicial de sistemas de IA, para os quais atualmente não existe tal orientação (Fig. 1 e Tabela 1). Esta avaliação clínica inicial fornece uma avaliação de escopo crucial da utilidade clínica, segurança e desafios de fatores humanos em ambientes clínicos ao vivo. Ao investigar os possíveis obstáculos para a avaliação clínica em escala e informar o desenho do protocolo, esses estudos também são importantes trampolins para ensaios comparativos definitivos.
Para resolver essa lacuna, reunimos um grupo internacional de especialistas com várias partes interessadas em um exercício Delphi para produzir a diretriz de relatórios DECIDE-AI. Concentrando-se em sistemas de IA que suportam, em vez de substituir, a inteligência humana, o DECIDE-AI visa melhorar os relatórios de estudos que descrevem a avaliação de sistemas de apoio à decisão baseados em IA durante sua implementação inicial em pequena escala em ambientes clínicos reais (ou seja, o decisões apoiadas têm um efeito real no atendimento ao paciente). Considerando que TRIPOD-AI, STARD-AI, SPIRIT-AI e CONSORT-AI são específicos para projetos de estudo específicos, o DECIDE-AI é focado no estágio de avaliação e não prescreve um projeto de estudo fixo.
Caixa 1 Desafios metodológicos da avaliação do sistema de apoio à decisão baseado em IA
A avaliação clínica de sistemas de apoio à decisão baseados em IA apresenta vários desafios metodológicos, todos os quais provavelmente serão encontrados no estágio inicial. Estas são as necessidades de: