PERFORMANCES DES POLITIQUES D’ORDONNANCEMENT MODELISEES AVEC SIMGRID
Définition des paramètres du modèle de grille
Une des clefs de la pertinence du modèle est le choix de paramètres réalistes. Nous avons utilisé des données collectées sur des infrastructures de grille de production pour la latence de téléchargement des données par les agents pilotes des tâches soumises à la plate-forme, la charge de la grille et les caractéristiques des projets soumis par les utilisateurs à la plate-forme à agents pilotes.
Latence de téléchargement des données
Nous avons vu au chapitre précédent comment la latence impactait le ralentissement expérimenté par les utilisateurs. Pour évaluer la latence de la connexion réelle, nous avons soumis à la grille à travers une plate-forme DIRAC EGI 10000 tâches simples dans lesquelles l’agent pilote télécharge un fichier vide à partir de l’élément de stockage. La figure 5-1 présente la distribution du temps de latence observé pour ces 10.000 tâches.
Figure 5-1 : Temps de latence en secondes observés pour 10.000 tâches soumises avec DIRAC La latence la plus courte mesurée est 3.84s, la plus longue est 309.28s. 90% des latences mesurées se situent entre 3s et 16s avec une moyenne à environ 18s. 5.1.2 Charge de la grille Pour simuler de façon réaliste la charge de la grille utilisée par la plate-forme à agents pilotes, nous avons utilisé les archives de l’infrastructure AuverGrid, grille régionale multidisciplinaire de la région Auvergne (France),
dont la charge a été archivée pour la période 2004-2005 sur le site web de Grille Workload Archive [73]. Les éléments constituant l’infrastructure de la grille AuverGrid dans cette période sont détaillés dans le tableau 5-1, y More Fréquence Temps (second) Histogramme de latence 104 compris la vitesse relative des machines et la durée maximale autorisée d’un job exécuté sur un cluster. Toutes les machines d’un même cluster ont la même vitesse.
Caractéristiques des projets soumis par les utilisateurs
L’analyse des charges de travail réelles de la grille dans [71], [74] a mis en évidence l’existence de deux catégories d’utilisateurs de la grille: les utilisateurs dits normaux et les gros utilisateurs dénommés « Data Challenge users ». Les utilisateurs normaux soumettent en général un nombre limité de jobs pour atteindre leurs objectifs scientifiques, alors que les utilisateurs « Data Challenge » soumettent de très grands nombres de jobs. Le nombre d’utilisateurs « Data Challenge » est limité, mais ils sont des clients importants de la plateforme comme ils travaillent souvent pour le compte d’une collaboration scientifique.