Modélisation QSAR/QSPR
L’utilisation des outils informatiques chez les chimistes est devenue obligatoire afin de bien manipuler les informations moléculaires qui ont été, au cours des dernières années, stockées numériquement sur les ordinateurs dans des bases de données en très grandes quantités. De plus, la multiplication des données exploitables par les chimistes a donné lieu à une obligation de la numérisation, afin d’être capable de stocker, visualiser et traiter ces mêmes données aisément. La discipline décrivant l’utilisation des outils informatiques pour traiter et résoudre des problèmes à la fois dans le domaine chimique et biologique est désignée par la Chémoinformatique [8]. Ses utilisations sont très variées et vont de la création et l’utilisation de base de données de petites molécules à la manipulation de fichiers en passant par les études statistiques. Cependant, son application la plus communément admise est dans le domaine de la recherche de nouveaux médicaments (Drug eDiscovery), domaine dans lequel elle joue un rôle central dans l’analyse et l’interprétation des données de structures et de propriétés collectées au cours des criblages à haut débit (technique se fait par les biologistes et visant à identifier des molécules nouvelles et potentiellement actives dans des bases de données de composés). L’émergence de cette discipline peut être mise en parallèle avec la multiplication des données chimiques stockées numériquement. En effet, les quantités de données générées par les nouvelles approches de Drug design n’ont eu de cesse d’augmenter et il s’est avéré nécessaire, pour traiter les résultats de criblage à haut débit ou encore de la chimie combinatoire, de développer et d’utiliser des techniques informatiques [9]. Les avancées technologiques de la dernière décennie ont rendu possibles de nombreuses découvertes et applications inaccessibles auparavant. Par exemple, le nombre de composés disponibles dans les études de criblage a augmenté de manière exponentielle. En parallèle, les développements techniques dans le domaine de l’informatique et des technologies de communication ont permis la création de bases de données de composés comportant des millions d’entrées. L’exemple le plus pertinente pour illustrer ces avancées est la base de données «PubChem» développée par le NIH (National Institute of Health) [10]. Avec un contenu de plus de 31 millions de composés reliés à leurs activités biologiques, ce genre de bases de données nécessite le développement et l’utilisation d’outils mathématiques et statistiques afin de pouvoir accéder à de nouvelles découvertes en termes de développement de nouveaux médicaments et à la compréhension «des relations entre structure et activité (QSAR)» ou bien «des relations entre structure et propriétés (QSPR)». Les premiers essais de modélisation d’activités de molécules datent de la fin du 19ème siècle, lorsque Crum-Brown et Frazer [11] postulèrent que l’activité biologique d’une molécule est une fonction de sa constitution chimique. Mais ce n’est qu’en 1964 que furent développés les modèles de «contribution de groupes», qui constituent les réels débuts de la modélisation QSAR. Depuis, l’essor de nouvelles techniques de modélisation par apprentissage, linéaires d’abord, puis non linéaires, ont permis la mise en place de nombreuses méthodes ; elles reposent pour la plupart sur «la recherche d’une relation entre un ensemble de nombres réels, descripteurs de la molécule, et la propriété ou l’activité que l’on souhaite prédire».
Définition des QSAR/QSPR
Lors d’une étude de «QSAR (Qualitative Structure-Activity Relationships)» ou de «QSPR (Qualitative Structure-Property Relationships)», on étudie les relations entre la structure et l’activité (propriété) d’un composé ou molécule, par exemple les effets d’une variation chimique locale sur une molécule à l’activité connue. En effet, certains changements chimiques sur certaines parties d’une molécule peuvent entraîner des variations de son activité biologique en agissant sur l’interaction avec la cible [12]. Ainsi, la méthodologie QSAR/QSPR permet de trouver un modèle mathématique qui mete en corrélation l’activité (propriété) et la structure au sein d’une famille de composés. De nombreuses méthodes conceptuellement différentes peuvent être utilisées pour mettre en place les modèles mathématiques permettant de détecter des relations de type QSAR. Ainsi, les études QSAR/QSPR sont basées sur des méthodes informatiques, celles de modélisations, déjà exploitées dans différents domaines. Les grandes phases de la mise en place d’un modèle QSAR/QSPR peuvent être décrites comme suit : Extraire les descripteurs à partir de la structure moléculaire, choisir les descripteurs adaptés à l’étude par rapport à l’activité (propriété) analysée, utiliser les descripteurs comme variables explicatives pour définir une relation qui les corrèle à l’activité en question, et enfin chaque modèle doit être validé sur des jeux de données de test [13-14].
Les descripteurs moléculaires
De nombreuses recherches ont été menées, au cours des dernières décennies, pour trouver la II. Modélisation QSAR/QSPR 16 meilleure façon de représenter l’information contenue dans la structure des molécules, et ces structures elles-mêmes, en un ensemble de nombres réels appelés descripteurs ; une fois que ces nombres sont disponibles, il est possible d’établir une relation entre ceux-ci et une propriété ou activité moléculaire, à l’aide d’outils de modélisation classiques.
Définition
Les descripteurs numériques réalisent un codage de l’information chimique en un vecteur de réels. Tout simplement, un descripteur moléculaire est une représentation mathématique d’une molécule, qui contient à la fois des informations sur la structure, et donc, implicitement ou explicitement, sur ses propriétés physico-chimiques. Ces informations peuvent être encodées par des valeurs scalaires, des vecteurs ou des chaînes de bits [13 – 15].
Types de descripteurs moléculaires
On dénombre aujourd’hui plus de 10000 descripteurs moléculaires, qui quantifient des caractéristiques physico-chimiques ou structurelles de molécules. Ils peuvent être obtenus de manière empirique ou non-empirique, mais les descripteurs calculés, et non mesurés, sont à privilégier : ils permettent en effet d’effectuer des prédictions sans avoir à synthétiser les molécules, ce qui est un des objectifs de la modélisation. Il existe cependant quelques descripteurs mesurés : il s’agit généralement de données expérimentales plus faciles à mesurer que la propriété ou l’activité à prédire (coefficient de partage eau-octanol [16], polarisabilité, ou potentiel d’ionisation). Les descripteurs moléculaires sont fréquemment classés par rapport à la dimensionnalité de la représentation moléculaire sur laquelle ils sont calculés : On parlera alors de descripteurs 1D, 2D ou 3D [12].
Les descripteurs 1D
Sont appelés «descripteurs constitutionnels» et sont faciles et rapides à calculer. Ils sont accessibles à partir de la formule brute de la molécule (par exemple C6H6O pour le phénol), et décrivent des propriétés globales du composé. Il s’agit par exemple de sa composition, c’est-à-dire les atomes qui le constituent, ou de sa masse molaire. On peut remarquer que ces descripteurs ne permettent pas de distinguer les isomères [13-14].
Les descripteurs 2D
Les descripteurs moléculaires utilisent la représentation des molécules comme des graphes sont dits «descripteurs 2D» et contiennent des informations à propos de la connectivité ou à propos de certains fragments moléculaires, mais aussi des estimations des propriétés physico-chimiques. C’est à partir de ce niveau que l’on peut espérer la capture d’informations chimiques pertinentes pour la prédiction de la majorité des propriétés moléculaires. On trouvera dans cette catégorie les descripteurs suivants : Les indices topologiques, qui considère la structure du composé comme un graphe, les atomes étant les sommets et les liaisons sont les arêtes. De nombreux indices quantifiant la connectivité moléculaire ont été développés en se basant sur cette approche, comme par exemple l’indice de Wiener [17], qui compte le nombre total de liaisons dans les chemins les plus courts entre toutes les paires d’atomes (en excluant les hydrogènes), et qui sera également l’axe central de cette thèse. Les indices constitutionnels, qui ses basent sur des motifs sous-structuraux. Par exemple, les empreintes BCI (Barnard Chemical Information Ltd) [18] sont des ensembles de bits indiquant la présence ou l’absence de certains fragments dans une molécule. Les fragments prennent en compte les atomes et leurs plus proches voisins, les paires d’atomes et les séquences ou encore les fragments basés sur des cycles. L’approche des clés MDL est une approche similaire comprenant la recherche des 166 fragments MDL [13, 14, 19]. Ces descripteurs 2D reflètent bien les propriétés physiques dans la plupart des cas, mais sont insuffisants pour expliquer de façon satisfaisante certaines propriétés ou activités, telles que les activités biologiques. c) Les descripteurs 3D : Les descripteurs 3D d’une molécule sont évalués à partir des positions relatives de ses atomes dans l’espace, et décrivent des caractéristiques plus complexes ; leurs calculs nécessitent donc de connaître, le plus souvent par «modélisation moléculaire empirique» ou «ab initio», la géométrie 3D de la molécule. Ces descripteurs s’avèrent donc relativement coûteux en temps de calcul, mais apportent davantage d’informations, et sont nécessaires à la modélisation de propriétés ou d’activités qui dépendent de la structure 3D. On distingue plusieurs familles importantes de descripteurs 3D : Les descripteurs géométriques : parmi ceux qui sont les plus importants sont le volume moléculaire, la surface accessible au solvant et le moment principal d’inertie. Les descripteurs électroniques : ils permettent de quantifier différents types d’interactions inter et intramoléculaires, de grande influence sur l’activité biologique de molécules. Le calcul de la plupart de ces descripteurs nécessite la recherche de la géométrie pour laquelle l’énergie stérique est minimale, et fait souvent appel à la chimie quantique. Par exemple, les énergies de la plus haute orbitale moléculaire occupée et de la plus basse vacante sont des descripteurs fréquemment sélectionnés. Le moment dipolaire, le potentiel d’ionisation, et différentes énergies relatives à la molécule sont d’autres paramètres importants. Les descripteurs spectroscopiques : les molécules peuvent être caractérisées par des mesures spectroscopiques, par exemples par leurs fonctions d’onde vibrationnelles. En effet, les vibrations d’une molécule dépendent de la masse des atomes et des forces d’interaction entre ceux-ci ; ces vibrations fournissent donc des informations sur la structure de la molécule et sur sa conformation. Les spectres infrarouges peuvent être obtenus soit de manière expérimentale, soit par calcul théorique, après recherche de la géométrie optimale de la molécule. Ces spectres sont alors codés en vecteurs de descripteurs de taille fixe. Les descripteurs de type MORSE [20] (Molecule Representation of Structures based on Electron diffraction) font appel au calcul des intensités théoriques de diffraction d’électrons.