Une nouvelle méthode d’apprentissage de données
structurées
La prédiction de propriétés et d’activités de molécules
Les premiers essais de modélisation d’activités de molécules datent de la fin du 19ème siècle, lorsque Crum-Brown et Frazer postulèrent que l’activité biologique d’une molécule est une fonction de sa constitution chimique. Mais ce n’est qu’en 1964 que furent développés les modèles de « contribution de groupes », qui constituent les réels débuts de la modélisation QSAR. Depuis, l’essor de nouvelles techniques de modélisation par apprentissage, linéaires d’abord, puis non linéaires, ont permis la mise en place de nombreuses méthodes ; elles reposent pour la plupart sur la recherche d’une relation entre un ensemble de nombres réels, descripteurs de la molécule, et la propriété ou l’activité que l’on souhaite prédire. Nous montrerons tout d’abord comment les molécules peuvent être représentées par des vecteurs de réels, et comment ces descripteurs sont sélectionnés. Nous introduirons ensuite les outils de modélisation sans contrainte les plus utilisés, c’est-à-dire la régression linéaire multiple et la régression non linéaire à l’aide de réseaux de neurones, qui sont fondés sur le calcul de descripteurs. Nous présenterons le problème de la sélection de modèle, ainsi que les stratégies les plus efficaces pour le résoudre. Nous décrirons alors la théorie statistique de l’apprentissage de Vapnik et les méthodes de modélisation sous contraintes, ainsi que leurs applications en QSAR et QSPR. Enfin, de nouvelles méthodes de modélisation, telles que la méthode CoMFA, mises au point pour la modélisation d’activités biologiques, seront présentées.
Les descripteurs : sélection, calcul ou mesure, problèmes en résultant
De nombreuses recherches ont été menées, au cours des dernières décennies, pour trouver la meilleure façon de représenter l’information contenue dans la structure des molécules, et ces structures elles-mêmes, en un ensemble de nombres réels appelés descripteurs ; une fois que ces nombres sont disponibles, il est possible d’établir une relation entre ceux-ci et une propriété ou activité moléculaire, à l’aide d’outils de modélisation classiques. Ces descripteurs numériques réalisent de ce fait un codage de l’information chimique en un vecteur de réels. On en dénombre aujourd’hui plus de 3000 types, qui quantifient des caractéristiques physico-chimiques ou structurelles de molécules. Ils peuvent être obtenus de manière empirique ou non-empirique, mais les descripteurs calculés, et non mesurés, sont à privilégier : ils permettent en effet d’effectuer des prédictions sans avoir à synthétiser les molécules, ce qui est un des objectifs de la modélisation. Il existe cependant quelques descripteurs mesurés : il s’agit généralement de données expérimentales plus faciles à mesurer que la propriété ou l’activité à prédire (coefficient de partage eau-octanol [2], polarisabilité, ou potentiel d’ionisation). Avant toute modélisation, il est nécessaire de calculer ou de mesurer un grand nombre de descripteurs différents, car les mécanismes qui déterminent l’activité d’une molécule ou une de ses propriétés sont fréquemment mal connus. Il faut ensuite sélectionner parmi ces variables celles qui sont les plus pertinentes pour la modélisation.
Les descripteurs moléculaires
Nous allons présenter les descripteurs moléculaires les plus courants, en commençant par les descripteurs les plus simples, qui nécessitent peu de connaissances sur la structure moléculaire, mais véhiculent peu d’informations. Nous verrons ensuite comment les progrès de la modélisation moléculaire ont permis d’accéder à la structure 3D de la molécule, et de calculer des descripteurs à partir de cette structure. Les descripteurs 1D sont accessibles à partir de la formule brute de la molécule (par exemple C6H6O pour le phénol), et décrivent des propriétés globales du composé. Il s’agit par exemple de sa composition, c’est-à-dire les atomes qui le constituent, ou de sa masse molaire. On peut remarquer que ces descripteurs ne permettent pas de distinguer les isomères de constitution. Les descripteurs 2D sont calculés à partir de la formule développée de la molécule. Ils peuvent être de plusieurs types. − Les indices constitutionnels caractérisent les différents composants de la molécule. Il s’agit par exemple du nombre de liaisons simples ou multiples, du nombre de cycles… − Les indices topologiques peuvent être obtenus à partir de la structure 2D de la molécule, et donnent des informations sur sa taille, sa forme globale et ses ramifications. Les plus fréquemment utilisés sont l’indice de Wiener [3], l’indice de Randić [4], l’indice de connectivité de valence de Kier-Hall [5] et l’indice de Balaban [6]. L’indice de Wiener permet de caractériser le volume moléculaire et la ramification d’une molécule : si l’on appelle distance topologique entre deux atomes le plus petit nombre de liaisons séparant ces deux atomes, l’indice de Wiener est égal à la somme de toutes les distances topologiques entre les différentes paires d’atomes de la molécule. L’indice de Randić est un des descripteurs les plus utilisés ; il peut être interprété comme une mesure de l’aire de la molécule accessible au solvant. Ces descripteurs 2D reflètent bien les propriétés physiques dans la plupart des cas, mais sont insuffisants pour expliquer de façon satisfaisante certaines propriétés ou activités, telles que les activités biologiques. Des descripteurs, accessibles à partir de la structure 3D des molécules, ont pu être calculés grâce au développement des techniques instrumentales et de nouvelles méthodes théoriques. Les descripteurs 3D d’une molécule sont évalués à partir des positions relatives de ses atomes dans l’espace, et décrivent des caractéristiques plus complexes; leurs calculs nécessitent donc de connaître, le plus souvent par modélisation moléculaire empirique ou ab initio, la géométrie 3D de la molécule. Ces descripteurs s’avèrent donc relativement coûteux en temps de calcul, mais apportent davantage d’informations, et sont nécessaires à la modélisation de propriétés ou d’activités qui dépendent de la structure 3D. On distingue plusieurs familles importantes de descripteurs 3D : − Les descripteurs géométriques les plus importants sont le volume moléculaire, la surface accessible au solvant, le moment principal d’inertie. − Les descripteurs électroniques permettent de quantifier différents types d’interactions inter- et intramoléculaires, de grande influence sur l’activité biologique de molécules. Le calcul de la plupart de ces descripteurs nécessite la recherche de la géométrie pour laquelle l’énergie stérique est minimale, et fait souvent appel à la chimie quantique. Par exemple, les énergies de la plus haute orbitale moléculaire occupée et de la plus basse vacante sont des descripteurs fréquemment sélectionnés. Le moment dipolaire, le potentiel d’ionisation, et différentes énergies relatives à la molécule sont d’autres paramètres importants. − Descripteurs spectroscopiques : les molécules peuvent être caractérisées par des mesures spectroscopiques, par exemples par leurs fonctions d’onde vibrationnelles. En effet, les vibrations d’une molécule dépendent de la masse des atomes et des forces d’interaction entre ceux-ci ; ces vibrations fournissent donc des informations sur la structure de la molécule et sur sa conformation. Les spectres infrarouges peuvent être obtenus soit de manière expérimentale, soit par calcul théorique, après recherche de la géométrie optimale de la molécule. Ces spectres sont alors codés en vecteurs de descripteurs de taille fixe. Le descripteur EVA [7] est ainsi obtenu à partir des fréquences de vibration de chaque molécule. Les descripteurs de type MoRSE [8] (Molecule Representation of Structures based on Electron diffraction) sont calculés à partir d’une simulation du spectre infrarouge ; ils font appel au calcul des intensités théoriques de diffraction d’électrons.
Réduction du nombre de variables
Comme nous l’avons rappelé, un grand nombre de descripteurs différents sont collectés pour la modélisation d’une grandeur donnée, car les facteurs déterminants du processus étudié ne sont a priori pas connus. Cependant, les descripteurs envisagés n’ont pas tous une influence significative sur la grandeur modélisée, et les variables ne sont pas toujours mutuellement indépendantes. De plus, le nombre de descripteurs, c’est-à-dire la dimension du vecteur d’entrée, détermine la dimension du vecteur des paramètres à ajuster. Si cette dimension est trop importante par rapport au nombre d’exemples de la base d’apprentissage, le modèle risque d’être surajusté à ces exemples, et incapable de prédire la grandeur modélisée sur de nouvelles observations (voir le paragraphe II.3 de ce chapitre). Il est donc nécessaire de réduire la dimensionnalité des variables d’entrée. Plusieurs approches sont possibles pour résoudre ce problème : − réduire la dimension de l’espace des entrées ; − remplacer les variables corrélées par de nouvelles variables synthétiques, obtenues à partir de leurs combinaisons ; − sélectionner les variables les plus pertinentes. Nous allons maintenant décrire les méthodes les plus fréquemment utilisées.
L’analyse en composantes principales
L’analyse en composantes principales (ou ACP) [9], est une technique d’analyse de données utilisée pour réduire la dimension de l’espace de représentation des données. Contrairement à d’autres méthodes de sélection, celle-ci porte uniquement sur les variables, indépendamment des grandeurs que l’on cherche à modéliser. Les variables initiales sont remplacées par de nouvelles variables, appelées composantes principales, deux à deux non corrélées, et telles que les projections des données sur ces composantes soient de variance maximale. Elles peuvent être classées par ordre d’importance. Considérons un ensemble de n observations, représentées chacune par p données. Ces observations forment un nuage de n points dans p . Le principe de l’ACP est d’obtenir une représentation approchée des variables dans un sous-espace de dimension k plus faible, par projection sur des axes bien choisis ; ces axes principaux sont ceux qui maximisent l’inertie du nuage projeté, c’est-à-dire la moyenne pondérée des carrés des distances des points projetés à leur centre de gravité. La maximisation de l’inertie permet de préserver au mieux la répartition des points. Dès lors, les n composantes principales peuvent être représentées dans l’espace sous-tendu par ces axes, par une projection orthogonale des n vecteurs d’observations sur les k axes principaux. Puisque les composantes principales sont des combinaisons linéaires des variables initiales, l’interprétation du rôle de chacune de ces composantes reste possible. Il suffit en effet de déterminer quels descripteurs d’origine leur sont le plus fortement corrélés. Les variables obtenues peuvent ensuite être utilisées en tant que nouvelles variables du modèle. Par exemple, la régression sur composantes principales [10] (ou PCR) est une méthode de modélisation dont la première étape est une analyse en composantes principales, suivie d’une régression linéaire multiple (dont le principe est présenté dans le paragraphe II.1).
I.2.2 – La méthode de régression des moindres carrés partiels
La régression des moindres carrés partiels (MCP, ou PLS) est également une méthode statistique utilisée pour construire des modèles prédictifs lorsque le nombre de variables est élevé et que celles-ci sont fortement corrélées. Cette méthode utilise à la fois des principes de l’analyse en composantes principales et de la régression multilinéaire. Elle consiste à remplacer l’espace initial des variables par un espace de plus faible dimension, sous-tendu par un petit nombre de variables appelées « variable latentes », construites de façon itérative. Les variables retenues sont orthogonales (non corrélées), et sont des combinaisons linéaires des variables initiales. Les variables latentes sont obtenues à partir des variables initiales, mais en tenant compte de leur corrélation avec la variable modélisée, contrairement aux variables résultant de l’analyse en composantes principales. Elles doivent ainsi expliquer le mieux possible la covariance entre les entrées et la sortie. Elles sont alors les nouvelles variables explicatives d’un modèle de régression classique, telles que la régression linéaire multiple.
INTRODUCTION |