Méthodes de traitement des données de spectrométrie de masse
Prétraitement des données
La première étape de prétraitement est la centroïdation des pics. La centroïdation consiste à faire une moyenne pondérée des points formant un pic afin d’en trouver le centre de masse. C’est une technique standard dans le domaine du traitement de signal, utilisée entre autres dans le traitement de signal sonore. Il est utile de trouver les centroïdes d’un pic pour ensuite pouvoir traiter le pic comme étant un point unique sur l’axe m/z. Cette étape est exécutée par le logiciel MassLynx de Waters Corporation. Une autre étape de traitement des données importante qui fut découverte au courant du projet est l’élimination des pics de faible intensité.
Sur chaque spectre de masse, on obtient quelques milliers de pics à très faible intensité. La présence de ces pics a plusieurs explications possibles. Une possibilité est que des effets quantiques et des erreurs sur le détecteur causent la détection de faibles impacts à des endroits où aucun ion ne se retrouve réellement. Une autre explication pour certains de ces pics est qu’ils sont causés par des ions très rares ou bien très peu volatiles. Dans les deux cas, il est mieux d’ignorer ces pics afin d’éviter d’établir à tort des corrélations entre ces pics à très faible intensité et les classes d’exemples.
Certains des résultats préliminaires d’apprentissage automatique tentaient, par erreur, de prédire les classes à partir de pics extrêmement faibles. Cette erreur était due au fait que ces pics étaient corellés à la plaque et au jour où les échantillons étaient mesurés. Malheureusement, aux fins de ce projet et de l’apprentissage automatique, certaines propriétés de la spectrométrie de masse et des étapes de prétraitement décrites ci-dessus introduisent certaines incertitudes auxquelles il faut pallier.
Le type principal d’incertitude qu’il nous faut nécessairement corriger est une variation au niveau des ratios de masse sur charge. Puisque nous considérons les différentes masses détectées comme étant des caractéristiques pour l’apprentissage automatique, les algorithmes ne peuvent pas naturellement compenser ces différences, contrairement à des variations en intensité pour une caractéristique donnée qui pourraient être contrebalancées.
Alignement des pics
Le premier de ces désalignements que nous avons tenté de solutionner est celui du désalignement aléatoire. Ce fut pour plusieurs raisons. Une première est que ce désalignement fut détecté et quantifié en premier. De plus, c’est un désalignement particulièrement important à régler pour la suite du projet.
Puisque nous considérons chaque position sur l’axe m/z où l’on retrouve un pic dans au moins un échantillon, il nous faut un alignement pour ces variances de masses. De plus, les algorithmes d’apprentissage ont en général des moyens d’être robustes au bruit dans les données. Cette robustesse s’exprime généralement en tant que résistance au bruit sur les valeurs dans une caractéristique d’exemple en exemple, soit à l’intensité des pics dans notre cas. Par contre, il est beaucoup plus complexe d’avoir une résistance à un bruit sur les caractéristiques.
Évaluation du problème
Jeu de données d’évaluation de reproductibilité Les variances en intensité des masses et des intensités de pics ont été évaluées sur un jeu de données fait pour mesurer la reproductibilité des données acquises sur une plaque par LDTD. Les données utilisées pour cet exercice étaient 8 échantillons de plasma provenant d’une même plaque d’échantillons. Chacun a été placé 12 fois sur la plaque. Nous avons donc 96 échantillons, soit 12 réplicats de 8 échantillons différents. Les échantillons ont subi une extraction à l’acétonitrile (ACN) et au méthanol (MeOH) dans une proportion de 75 :25. La proportion de l’extraction était de 10 µL d’échantillon pour 90 µL de solution ACN :MeOH.
Cette étape est un crash à l’acétonitrile, méthode fait précipiter les protéines et peptides en solution Xu et collab. FIGURE 1.3 – Patron laser utilisé en LDTD (2005). Par la suite, chaque échantillon de plasma a subi une sonication pour une période de 5 minutes, afin de s’assurer de la fragmentation des biomolécules. On fait ensuite une centrifugation de 5 minutes à 5000 RPM afin de concentrer les protéines précipitées au fond du tube et l’on récupère le surnageant. Les échantillons ont ensuite été dilués dans une proportion 1 :10 afin d’éviter la suppression ionique, qui peut arriver si l’on a trop d’ions dans l’échantillon acquis.
Du clomiphène fut ajouté dans chaque échantillon. Par la suite, 2 µL de solution furent pipettés dans chaque puit de la plaque LazWell utilisée. Les données furent ensuite acquises par LDTD et avec un spectromètre Synapt G2 de Waters Corporation. La figure 1.3 montre le patron laser utilisé par le LDTD pour cette expérience. Le laser reste fermé 2 secondes. Il s’allume et monte à 40% de sa force maximale en 3 secondes. Le laser continue ensuite de chauffer en montant à 77% de sa force maximale les 10 secondes suivantes. Le laser termine ensuite en chauffant graduellement jusqu’à 90% de sa force maximale durant les 13 secondes suivantes, avant de se fermer.
L’acquisition sur le spectromètre Synapt G2 se fait ensuite en mode high resolution. Ce mode a été choisi puisqu’il est plus spécifique sur les masses, ayant une erreur moindre, et qu’il est moins sensible. Cela représente un avantage dans la situation puisqu’un grand nombre d’ions frappe le détecteur en peu de temps vu la technologie LDTD. Cette diminution de sensibilité va donc aider à prévenir la suppression du signal au détecteur. Le spectre est aussi acquis en mode MS simple, avec une rampe d’énergie de collision. L’énergie de collision est une énergie ajoutée dans la cellule de collision afin de favoriser la fragmentation des molécules. Dans cette expérience, le gradient d’énergie était de 0V à 35V sur les 28 secondes d’acquisition.