Energie d’un micro système représenté par un déterminant de Slater

Télécharger le fichier original (Mémoire de fin d’études)

Modélisation et prédiction des points d’éclair des hydrocarbures non saturés en utilisant l’approche hydride algorithme génétique / régression linéaire multiple.

Introduction

Le point (ou température) d’éclair (Tec) est défini(e) comme la température la plus basse, corrigée à 101,325 kPa, à laquelle l’application d’une source d’inflammation provoque l’inflammation des vapeurs dans les conditions spécifiques du test [III.1,III.4].
Ce paramètre fournit l’explication des processus physiques et chimiques fondamentaux de la combustion. De plus, il est important pratiquement pour les conditions de sécurité lors du stockage, le traitement et la manipulation d’un composé donné. Et c’est l’une des principales caractéristiques d’inflammabilité utilisées pour évaluer les risques d’incendie et d’explosion des composés organiques [III.5].
Le point d’éclair de la plupart des composés peut être mesuré par deux méthodes expérimentales actuellement acceptées, qui sont le test de coupe fermée et le test de coupe ouverte [III.6]. Cependant, pour de nombreux autres composés, les valeurs du point d’éclair expérimental sont rares et trop coûteuses à obtenir. En outre, il est encore plus difficile de réaliser la détermination expérimentale du point d’éclair des composés toxiques, volatils, explosifs et radioactifs. Par conséquent, le développement de méthodes d’estimation pour prédire le point d’éclair, est nécessaire.
Parmi les méthodes principales de prédiction de cette propriété on peut citer la méthode de contribution de groupe (MCG), l’analyse par composantes principales (ACP) et la relation quantitative structure-propriété (QSPR).
Plusieurs modèles QSPR développés pour prédire le point d’éclair ont été publiés dans la littérature [III.7,III.9]. Vidal et al. [III.7] ont présenté les méthodes les plus importantes pour la prédiction du point d’éclair.
Une étude de prédiction des points d’éclair d’un grand ensemble de données de divers types d’hydrocarbures cycliques et acycliques [III.8]. Une corrélation simple a été proposée ; elle est basée sur le nombre de carbones et d’atomes d’hydrogène et certaines fractions moléculaires spécifiques, qui peuvent être facilement utilisées pour tout type d’hydrocarbures.
Une autre méthode a été introduite pour la prédiction des points d’éclair de différentes classes d’hydrocarbures non saturés [III.9]. Une fonction centrale montrant que le nombre de carbones et d’atomes d’hydrogène peut être utilisé comme la fonction centrale et peut être révisée par une fonction de correction. La fonction de correction contient deux termes correcteurs déterminés sur la base de la structure moléculaire des hydrocarbures insaturés.

Méthodologies

La collecte des données

L’ensemble des composés étudiés, dont les caractéristiques ont été prélevées dans la littérature [III.9], est formé de différentes classes d’hydrocarbures insaturés (des alcènes, des alcynes et des composés aromatiques). Les valeurs des points d’éclair se distribuent dans la fourchette : 137 – 451 K. L’application de l’approche algorithme génétique a mené à la présélection d’un ensemble réduit de 269 descripteurs [III.10].
En première étape, l’ensemble de données a été éclaté de manière aléatoire en deux sous ensembles disjoints : un ensemble de calibrage formé de 139 composés pour la construction du modèle ; les 34 composés restants constituent l’ensemble de test externe destiné à l’évaluation du pouvoir prédictif du modèle calculé. Le tableau III.1 présente l’ensemble des composés étudiés (calibrage et test).

Résultats et discussions

Développement et validation de modèle

Une analyse par régression linéaire multiple (MLR) pour la sélection des variables a été effectuée après la génération des descripteurs moléculaires, en utilisant le logiciel Mobydigs [III.11] et en appliquant la méthode des moindres carrés ordinaire (OLS) et la sélection de sous ensembles de variables par algorithmes génétiques (GA-VSS) (Genetic Algorithms-Variable Subset Selection) [III.12].
Une attention particulière a été accordée à la colinéarité des descripteurs moléculaires sélectionnés en appliquant la règle QUIK (Q Under Influence of K) [III.13] une condition nécessaire pour la validité du modèle. Les modèles acceptables sont uniquement ceux avec une corrélation globale du bloc [X + Y] (Kxy) supérieure à la corrélation globale de la variable X (Kxx), X représentant les variables explicatives et Y la variable à expliquer : Kxy- Kxx≥0,05.
La sélection par algorithme génétique conduit à un modèle MLR à quatre descripteurs qui décrit au mieux le point d’éclair. Le modèle retenu a pour équation : Tec 234,55( 36,17) + 12,48( 0,33) nSK 416,04( 38,37) FDI – 83,29( 7,87) Mor26v + 19,43( 2.11) R5u (III.1) Où, – nsK est un descripteur constitutionnel appartenant au bloc numéro1, représentant le nombre d’atomes autres que l’hydrogène [III.10]. De façon générale les descripteurs constitutionnels sont les descripteurs les plus simples et les plus couramment utilisés. Ils reflètent la composition moléculaire d’un composé sans donner aucune information sur sa géométrie moléculaire.
– FDI (Folding Degree Index en anglais) est l’indice de degré de repliement de la molécule.
FDI est un descripteur géométrique calculé à l’aide du logiciel Dragon (bloc 12).
Les descripteurs géométriques sont définis de différentes manières, et sont toujours dérivés de la structure tridimensionnelle de la molécule. Généralement, les descripteurs géométriques sont calculés soit à partir de la géométrie moléculaire optimisée obtenue par les méthodes de la chimie computationnelle soit à partir des coordonnées cristallographiques.
Cet indice tend vers un (1) pour les molécules linéaires (de longueur infinie) et diminue en concordance avec le repliement de la molécule. Ainsi, il peut être considéré comme une mesure du degré de repliement de la molécule car il indique le degré de l’écart d’une molécule de la stricte linéarité [III.10].
– Mor26v est un descripteur Morse-3D du bloc 14; représentation tridimensionnelle des structures moléculaires, basée sur la diffraction des électrons. Ces descripteurs sont basés sur l’idée d’obtenir des informations à partir des coordonnées atomiques 3D par la transformée utilisée dans les études de diffraction d’électrons pour préparer des courbes de diffusion théoriques.
Où Morsw est l’intensité des électrons dispersés, w est une propriété atomique, les rij sont les distances interatomiques et nAT le nombre d’atomes. Le terme s représente la dispersion dans diverses directions par une collection de n atomes.
Afin d’obtenir des descripteurs tout à fait uniformes, la répartition de l’intensité est rendue discrète, en calculant sa valeur comme une séquence de valeurs régulièrement distribuées.
Dans le logiciel DRAGON en particulier, ce descripteur est supposé prendre des valeurs entières de 0 à 31(pour s=0 le rapport de dispersion est posé égal à 1) [III.10].
– R5u (R autocorrelation of lag 5 / unweighted) est l’autocorrélation R de décalage 5 / non pondéré ; c’est un descripteur GETAWAY du bloc 16. Les descripteurs GETAWAY ont été proposés comme descripteurs de structure chimique dérivés d’une nouvelle représentation de la structure moléculaire [III.10].
Ce descripteur est basé sur les formules d’auto-corrélation spatiale, pondérant les atomes de la molécule par des propriétés physico-chimiques w avec des informations 3D codées par les éléments de la matrice d’influence moléculaire H et de la matrice d’influence / distance R.
La valeur t d’un descripteur mesure la signification statistique de son coefficient de régression.
Les valeurs absolues élevées de t indiquées dans le tableau III.2 expriment que les coefficients de régression des descripteurs impliqués dans le modèle RLM sont significativement plus grands que l’écart-type. Remarquons ici que le descripteur représentant le nombre d’atomes autres que l’hydrogène (nsK) est le plus significatif comparativement aux autres descripteurs.
La probabilité de t d’un descripteur donne sa signification statistique lorsqu’il est combiné avec d’autres descripteurs dans un modèle QSPR global (les interactions entre descripteurs). Les descripteurs avec des valeurs de la probabilité de t inférieures à 0,05 (confiance de 95%) sont généralement considérés comme statistiquement significatifs dans un modèle particulier, ce qui montre que leur influence sur la variable réponse n’est pas due au hasard [III.14].
Des modèles ayant des descripteurs avec VIF > 5 ne seraient pas acceptables. Les valeurs des VIF suggèrent que ces descripteurs sont faiblement corrélés les uns avec les autres. Ainsi, le modèle peut être considéré comme une équation de régression optimale.
La matrice de corrélation établit que ces descripteurs sont faiblement corrélés 2 à 2. (Tableau III.3). Les paramètres statistiques obtenus montrent que le modèle (d’équation III.1) établit une forte corrélation entre les variables sélectionnées et la propriété étudiée, caractérisée par un excellent coefficient de détermination. La valeur de 2 97,41%  R indique que 97,41 de la variation totale est expliquée par le modèle.
Le coefficient de détermination ajusté adjR tient compte du nombre de variables et au contraire de R², il n’augmente pas forcément lors de l’introduction de variables supplémentaires dans le modèle. La valeur élevée de 2 adj R (%) = 97,34, très peu différente de celle de 2 R , indique un excellent accord entre la corrélation et la variation des données.
La grande valeur du F de Fisher (F = 1261,62), indique une excellente capacité prédictive du modèle, avec une erreur standard (s = 10,28).
La petite différence entre 2 R et 2 QLOO (0,30) informe sur la robustesse du modèle.
La valeur élevée de 2 boot Q (%) = 96,96 confirme à la fois la prédictivité interne et la stabilité du modèle.
Une comparaison visuelle des résultats prédits avec les données expérimentales est également illustrée sur le graphe des valeurs prédites en fonction des valeurs expérimentales des points d’éclair (Figure III.1) pour les ensembles de calibrage et de test, confirme que le modèle linéaire a un très bon ajustement et peut être utilisé pour prédire la propriété étudiée.
Le graphe de la figure III.1, fait ressortir une faible dispersion autour de la première bissectrice et vérifie le bon ajustement du modèle obtenu.

Table des matières

INTRODUCTION GENERALE
CHAPITRE I : Généralités sur les solvants
I.1. Introduction
I.2. Définition d’un solvant
I.3. Propriétés physico-chimiques
I.3.1. Densité
I.3.2. Points d’ébullition
I.3.3. Tension de vapeur
I.3.4. Chaleur d’évaporation
I.3.5. Taux d’évaporation
I.3.6. Viscosité
I.3.7. Tension superficielle
I.3.8. Paramètre de solubilité
I.3.9. Point d’éclair
I.3.10. Point d’inflammation
I.3.11. Limite d’inflammabilité
I.3.12. Explosivité
I.3.13. Auto-inflammation
I.4. Comment mesurer le point d’éclair
I.4.1. Domaine d’application
I.5. Classification des solvants selon la CLP
I.5.1. Comprendre la CLP
I.5.2. Classification des liquides inflammables selon le règlement CLP
I.5.2.1. Définition
I.5.2.2. Critère de classification
I.5.2.3. Évolution de l’étiquetage des produits chimiques
I.5.2.4. Résumé et comparaison des méthodes d’évaluation
I.6. Principales catégories des solvants
I.6.1 .Hydrocarbures
I.6.1 .Solvants halogénés
I.6.3. Solvants oxygénés
I.6.4 .Autres solvants
I.7. La toxicité et les maladies professionnelles des solvants organiques
I.8. Risque pour l’environnement
I.9. Quelques accidents
RÉFÉRENCES BIBLIOGRAPHIQUES
CHAPITRE II : Étude théorique
II.1. La modélisation moléculaire
II.2. Optimisation des molécules
II.2.1. La méthode HFR
II.2.1.1. Energie d’un micro système représenté par un déterminant de Slater
II.2.1. 2. Détermination des orbitales ou équations de Hartree-Fock
II.2.1. 3. Equation de Roothaan et Hall
II.2.1.4. Q uelques remarques sur les processus de résolution des équations de Hartee-Fock-Roothaan
II.2.1.5. Détermination des intégrales de la méthode de HFR
II.2.2. Méthodes semi-empiriques
II.2.2.1.. Définition du semi-empiriques
II.2.2.2. Quelques théories semi-empiriques
II.2.2.3. Limites et avantages des méthodes semi-empiriques
II.2.3. Analyse de distributions de charges
II.2.3.1. Analyse de population de Mullikan
II.2.3.2. Calcul du moment dipolaire
II.2.3.3. Application
II.3. La mécanique moléculaire
II.3.1. Pas de calcul de champ de force sans définition préalable des types d’atome
II.3.2. Forme fonctionnelle des champs de force courants
II.3.3. Quelques exemples
II.4. Génération des descripteurs moléculaires
II.5. Méthodes appliquées pour la sélection d’échantillons
II.5.1. Sélection aléatoire des échantillons
II.5.2. Algorithme CADEX pour la sélection d’échantillons
II.6. Sélection d’un sous ensembles de descripteurs significatifs
II.6.1.Principe de sélection par Algorithme génétique
II.6.2. Initialisation aléatoire du modèle
II.6.3. Étape de croisement
II.6.4. Étape de mutation
II.6.5. Conditions d’arrêt
II.7. Développement des modèles QSPR/QSAR
II.7.1. La régression linéaire multiple (RLM)
II.7.2. Machine à vecteur support (SVM)
II.7.3. Paramètres statistiques d’évaluation d’un modèle QSAR/QSPR
II.7.4. Analyse des résidus
II.7.5. Diagnostic d’influence
II.7.6. Statistique DFBETASj,i
II.7.7. COVRATIOi
II.7.8. Le domaine d’application du modèle QSPR
II.7.9. Test de randomisation
RÉFÉRENCES BIBLIOGRAPHIQUES.
CHAPITRE III : Résultats et discussions
III.1. Modélisation et prédiction des points d’éclair des hydrocarbures non-saturés en utilisant l’approche hybride algorithme génétique / régression linéaire multiple
III .1.1. Introduction
III .1. 2. Méthodologies
III .1. 2.1. La collecte des donnés
III.1.3. Résultats et discussion
III.1.3.1.Développement et validation de modèle
III.1.3.2.Analyse des résidus
III.1.3.3. Diagnostics d’influence
III .1. 3.4. Le test de randomisation
III .1. 3.5. Étude de contribution des descripteurs au modèle
III .1. 3.6. Domaine d’application
III .1. 4. Conclusion
III.2. Modélisation des points d’éclair d’un ensemble de n-alcanes
III.2.1.Introduction
III.2.2. Données et méthodes de recherche
III.2.3. Résultats et discussion
III.2.3.1. Calcul du modèle
III.2.3.2. Analyse des résidus
III.2.3.3. Domaine d’applicabilité
III.2.3.4. Test de randomisation
III.2.3.5. Validation statistique externe
III.2.4. conclusion
III.3. Modélisation des températures d’ébullition d’un mélange de différentes classes de solvants
III.3.1.Donnés expérimentales et calcul des descripteurs
III.3.2. Résultats et discussions
III.3.2.1.Choix du modèle linéaire
III.3.2.1.A. Analyse des résidus et validation du modèle
III.3.2.1.B. Diagnostic d’influence
III.3.2.1.C. Évaluation du modèle
III.3.2.1.D. Vérification de la qualité d’ajustement
III.3.2.1.E. Validation externe
III.3.2.1.F. Diagramme de Williams
III.3.2.1.G. Test de randomisation
III.3.2.1.H. Autres analyses des erreurs
III.3.2.2. Modèle non- linéaire (machine à support vecteur)
III.3.2.3. Comparaison entre paramètres statistiques des deux modèles
III.3.2.4. Comparaison des droites d’ajustement
III.3.2.5. Comparaison des distributions des erreurs
III.3.3. Conclusion
RÉFÉRENCES BIBLIOGRAPHIQUES
Conclusion générale
ANNEXE I : Présentations des données
ANNEXE II : Article publié