Evaluation d’un système d’intelligence artificielle pour le dépistage
Acquisition d’images et éthique
Cette étude clinique rétrospective a été approuvée par le comité d’éthique institutionnel (IRB : CRM-2004-069) et le règlement général sur la protection des données selon les directives de la déclaration d’Helsinki III. Du 9 mars 2020 au 20 avril 2020, 3422 tomographies thoraciques à faible dose ont été réalisées sur 3 scanners différents. L’ensemble des examens tomodensitométriques à ultra-faible dose (DLP < 45 mGy.cm) ont été réalisés en acquisition hélicoïdale cranio-caudale avec des paramètres fixes selon les recommandations industrielles sur 3 appareils différents : Aquilion Prime (Toshiba Medical Systems, Otawara, Japon), détecteurs 80 × 0,5 mm, collimation 40 mm, temps de rotation 0,5s, pas de 1,388 mm/ rotation, tension du tube 135 kVp, intensité 20mAs, filtre pulmonaire), Revolution EVO (GE Healthcare, Milwaukee, WI, USA), détecteurs 64 × 0,625 mm, collimation 40 mm, temps de rotation 0. 35s, pas de 1,375 mm/rotation, tension du tube 120 kVp, intensité de 45mAs, filtre pulmonaire, Discovery CT 750 HD (GE Healthcare), 64 détecteurs de 0,625 mm, collimation 40 mm, temps de rotation 0,4s, pas de 1,375 mm/rotation, tension du tube 120 kVp, intensité de 45mAs, filtre pulmonaire.
Génération de pseudo-étiquettes et segmentation supervisée de lésions pulmonaires
Les outils de segmentation par apprentissage profond peuvent segmenter de manière fiable des images complexes lorsqu’ils sont entraînés à l’aide d’images bien étiquetées couvrant une variété de cas, une méthode appelée entraînement supervisé. Cependant, le contourage manuel des régions de GGO et de consolidation dans un scanner avec une précision au niveau du pixel est une tâche énorme et un tel ensemble de données qui s’étend sur des cas d’imagerie variés n’est pas disponible. En outre, la délimitation des lésions sans limites claires, telles que les lésions en verre dépoli, peut être très peu reproductible. Pour contourner ce manque de données de base, nous avons d’abord généré des pseudo-contourage de manière non supervisée pour un ensemble limité de données et appliqué des corrections avant d’entraîner un réseau de neurones convolutifs (CNN) final pour la segmentation sémantique. 17 Tout d’abord, nous avons utilisé un modèle robuste de segmentation de la cavité pulmonaire (18), appelé masque pulmonaire, pour produire un masque de volume pulmonaire pour notre ensemble de données. En utilisant un ensemble de données de 50 patients, nous avons sélectionné les voxels dans la cavité pulmonaire qui ont des valeurs d’unités Hounsfield (HU) supérieures à -700. Ces voxels sont ensuite regroupés en 3 classes à l’aide d’une classification K-Means (par lots) employée sur des caractéristiques de voxel créées à la main, comme le montre la figure 1A. Les caractéristiques ont été obtenues à chaque voxel en utilisant : l’intensité de l’image (en HU), le hessien de la pile d’images dans trois directions, et le filtre de vaisseaux de Frangi à trois échelles différentes. Chaque voxel est ensuite converti en un vecteur à 8 dimensions. Figure 1 : Schéma de la méthode de segmentation sémantique. A] Les images non étiquetées ont d’abord été décomposées en caractéristiques, puis, en utilisant le masque pulmonaire (18) et un seuil, les pixels sélectionnés ont été regroupés à l’aide de K-means. B] Unet-A a été entraîné sur le jeu de données pseudo-étiqueté obtenu par le clustering K-means. C] Unet-B a été entraîné sur les images pseudoétiquetées prédites par Unet-A, et l’analyse volumétrique fournit les volumes de la consolidation, du verre dépoli et de la cavité thoracique. 18 Ensuite, les k-means ont été utilisés pour regrouper ces voxels en 3 classes qui représentent les vaisseaux, la consolidation et le verre dépoli comme le montre la figure 1[A]. Cette segmentation non supervisée reste imparfaite, par exemple, certains pixels qui appartiennent à la région des vaisseaux sont regroupés dans la consolidation et vice-versa en raison de leur similarité à la fois dans la texture et les intensités. Grâce à un nettoyage morphologique, les petits volumes de consolidation ont été érodés et des pseudo-étiquettes ont été obtenues pour 9000 coupes sélectionnées au hasard. Environ 50 de ces images générées ont été vérifiées au hasard et les erreurs de regroupement entre vaisseaux et consolidation ont été corrigées à la main, en particulier pour les images à faible dose et à fort bruit. Comme nous l’avons déjà mentionné et comme le montre Hofmanninger (18), pour qu’une méthode supervisée puisse être généralisée à des tomodensitogrammes inconnus, un ensemble de données contenant des images variées est nécessaire. Dans cette optique, nous entraînons un CNN avec l’architecture UNET (19) sur le jeu de données non supervisé et pseudo-étiqueté, avec une augmentation importante de l’image. Les coupes de scanners ont d’abord été normalisées entre [-1024,300] et l’augmentation aléatoire de l’image comprenait un bruit gaussien additif, une mise à l’échelle, une rotation et un flou gaussien. Cette UNET (appelée Unet-A, dans la figure 1[A]) a permis de généraliser la segmentation sémantique à d’autres images. Ensuite, un jeu de données contenant des volumes de tomodensitométrie de 200 patients a été segmenté à l’aide de Unet-A et un autre jeu de données de 20 000 images et de pseudo-étiquettes a été généré. Le jeu de données a été sélectionné pour être un mélange d’images saines et d’images contenant des zones de consolidation et de GGO. Enfin, une deuxième UNET indépendante (Unet-B sur la figure 1[B]) a été entraînée sur le jeu de données sélectionné, avec la même augmentation importante des données que celle mentionnée ci-dessus.