PORTÉE : prédire les futurs diagnostics lors des visites en cabinet à l'aide des dossiers de santé électroniques

Rapports scientifiques volume 13, Numéro d'article : 11005 (2023) Citer cet article

338 accès

3 Altmétrique

Détails des métriques

Nous proposons un modèle interprétable et évolutif pour prédire les diagnostics probables lors d'une rencontre sur la base des diagnostics antérieurs et des résultats de laboratoire. Ce modèle est destiné à aider les médecins dans leur interaction avec les dossiers de santé électroniques (DSE). Pour ce faire, nous avons collecté et anonymisé rétrospectivement les données DSE de 2 701 522 patients de Stanford Healthcare sur une période allant de janvier 2008 à décembre 2016. Un échantillon de patients comprenant 524 198 individus (44 % H, 56 % F) avec plusieurs rencontres avec au moins un code de diagnostic fréquent ont été choisies. Un modèle calibré a été développé pour prédire les codes de diagnostic de la CIM-10 lors d'une rencontre sur la base des diagnostics antérieurs et des résultats de laboratoire, en utilisant une stratégie de modélisation multi-étiquettes basée sur la pertinence binaire. La régression logistique et les forêts aléatoires ont été testées comme classificateur de base, et plusieurs fenêtres temporelles ont été testées pour agréger les diagnostics et les laboratoires antérieurs. Cette approche de modélisation a été comparée à une méthode d’apprentissage en profondeur récurrente basée sur un réseau neuronal. Le meilleur modèle utilisait une forêt aléatoire comme classificateur de base et intégrait des caractéristiques démographiques, des codes de diagnostic et des résultats de laboratoire. Le meilleur modèle a été calibré et ses performances étaient comparables ou supérieures à celles des méthodes existantes en termes de diverses mesures, notamment un AUROC médian de 0,904 (IQR [0,838, 0,954]) sur 583 maladies. Lors de la prédiction de la première apparition d'une maladie chez un patient, l'AUROC médian avec le meilleur modèle était de 0,796 (IQR [0,737, 0,868]). Notre approche de modélisation a donné des résultats comparables à ceux de la méthode d'apprentissage en profondeur testée, la surpassant en termes d'AUROC (p < 0,001) mais sous-performante en termes d'AUPRC (p < 0,001). L'interprétation du modèle a montré que le modèle utilise des fonctionnalités significatives et met en évidence de nombreuses associations intéressantes entre les diagnostics et les résultats de laboratoire. Nous concluons que le modèle multi-étiquettes fonctionne de manière comparable au modèle d'apprentissage profond basé sur RNN tout en offrant une simplicité et une interprétabilité potentiellement supérieure. Bien que le modèle ait été formé et validé sur des données obtenues auprès d’une seule institution, sa simplicité, son interprétabilité et ses performances en font un candidat prometteur pour le déploiement.

L'adoption généralisée des dossiers de santé électroniques (DSE) a offert un grand potentiel d'apprentissage et d'application à partir de flux de données du monde réel, tout en imposant aux praticiens un travail administratif de documentation qui les éloigne des soins directs aux patients. Les médecins de soins primaires peuvent passer jusqu'à la moitié de leur journée de travail à interagir avec le DSE1, réduisant ainsi le temps consacré aux soins aux patients2. De plus, la charge documentaire peut réduire la satisfaction des médecins et même conduire à l’épuisement professionnel3. De plus, les données du DSE sont souvent biaisées4 et souffrent de données manquantes et incomplètes5,6. Nous cherchons ici à développer des méthodes d'apprentissage automatique pour relever ces défis clés afin de libérer le potentiel des DSE dans le cadre des visites ambulatoires en cabinet.

L’objectif principal de notre travail est de prédire les diagnostics probables des patients à partir de leurs antécédents médicaux. Ces dernières années, de nombreux travaux ont été réalisés sur la prédiction des diagnostics et des résultats pour les patients à partir des antécédents médicaux obtenus à partir des DSE7,8,9. Notre travail se concentre exclusivement sur les visites ambulatoires. En termes de méthodes, les travaux récents se sont fortement concentrés sur les approches d’apprentissage profond10 ; ici cependant, nous proposons des modèles d'apprentissage automatique classiques tels que la régression logistique et les forêts aléatoires qui offrent une bien meilleure interprétabilité ainsi qu'une modularité et une évolutivité. Enfin, au lieu de nous concentrer uniquement sur une ou quelques maladies11, nous évaluons ces modèles pour un large éventail de maladies à un niveau de granularité approprié, sous réserve de contraintes de données. Ceci est motivé par le fait que les patients en clinique externe présentent souvent plusieurs maladies chroniques et aiguës, et bien que les modèles de maladie unique soient très utiles, il devient rapidement fastidieux de maintenir et d'obtenir des prédictions significatives à partir de plusieurs modèles disparates. Nous présentons une approche unifiée pour modéliser le large champ de pratique en clinique externe.