Allocation de ressources élastique pour l’optimisation de requêtes
Allocation de ressources
L’allocation de ressources consiste à déterminer « quand » et « où » exécuter chaque tâche du plan. Le choix de la ressource d’exécution (où ?) est appelé placement. La détermination de l’instant de déclenchement (quand ?) par rapport aux autres tâches placées sur la même ressource et en tenant compte des dépendances entre les tâches de la même requête est appelé ordonnancement. L’allocation de ressources se base sur un modèle de coûts. Ce dernier utilise des statistiques contenues dans un catalogue (notamment le nombre de tuples et leur taille en octets, nombre de valeurs uniques d’un attribue donné, histogrammes) pour estimer le nombre et la taille des tuples des relations intermédiaires de la requête. À partir de ces estimations, des algorithmes sont utilisés pour trouver une allocation de ressources qui minimise (ou maximise, selon la formulation du problème) une fonction objectif tout en 3
Contexte respectant un ensemble de contraintes
Avant la naissance des systèmes cloud, plusieurs travaux ont considéré le problème d’allocation de ressources pour l’interrogation de bases de données dans des architectures parallèles. Certains ont résolu le problème d’une manière statique avant l’exécution de la requête (Nag and DeWitt, 1998; Yu and Cornell, 1993) alors que d’autres d’une manière dynamique pendant l’exécution de la requête (Bouganim et al., 1998). Il y a aussi des travaux qui supposent l’existence d’une allocation statique puis cette dernière est modifiée dynamiquement pendant l’exécution de la requête si les estimations initiales du modèle de coûts sont significativement différentes de la réalité (Kabra and DeWitt, 1998). Ceci est appelé la réallocation de ressources. Suite à l’arrivée du cloud, certaines méthodes ont été étendues pour répondre aux spécificités de cet environnement, notamment les SLAs, le modèle économique et le multi-locataire (Kllapi et al., 2011; Pietri et al., 2019). Dans cette thèse, nous étudions le problème d’allocation de ressource statique en environnement cloud, et aussi le réallocation.
Dimensionnement automatique
L’utilisation du cloud a de nombreux avantages par rapport à une solution en local au sein des locaux de l’entreprise. Une solution en local nécessite un investissement initial pour la mise en place de l’infrastructure et l’installation des logiciels. De plus, elle peut donner lieu à une infrastructure sous-chargée ou surchargée. En effet, le nombre de ressources est défini lors de la mise en place de l’infrastructure alors que la charge peut varier dans le temps d’une façon imprévisible. La surcharge implique une diminution des performances de service alors que la sous-charge est considérée comme du gaspillage de ressources. Par contre, dans le cloud, il n’y a pas d’investissement initial pour le locataire car les ressources sont au niveau de l’infrastructure du fournisseur. De plus, grâce à l’élasticité (Kouki and Ledoux, 2012), le nombre de ressources attribuées peut changer à tout moment ce qui permet de garder des performances acceptables et au même temps éviter le gaspillage. Afin d’assurer l’élasticité du cloud, il est important de décider le moment d’augmenter ou diminuer le nombre de ressources attribuées au service (combien ?). Le dimensionnement automatique est le mécanisme permettant de choisir le moment d’augmenter et diminuer le nombre de ressources. La plupart des fournisseurs actuels utilisent une ap4
Problématique proche intuitive basée sur des seuils
L’idée principale de cette approche est d’ajouter (ou de supprimer) des ressources si une certaine mesure est supérieure (ou inférieure) à un seuil prédéfini. Le principal inconvénient de l’approche basée sur les seuils est le fait qu’elle exige une compréhension approfondie des tendances de la charge pour choisir les bons seuils, ce qui n’est pas facile à réaliser. Afin d’éviter les inconvénients de l’approche de seuils, de nombreux travaux scientifiques ont été consacrés à la conception de méthodes de dimensionnement automatique indépendantes de l’humain, basées sur l’apprentissage par renforcement (Dutreilh et al., 2011; Rao et al., 2011). L’apprenant est un agent qui fait des actions successives dans un environnement et reçoit une récompense pour chaque action effectuée. Après une suite d’essais, il devrait apprendre à prendre de bonnes décisions ce qui permet d’effectuer le dimensionnement automatique sans intervention humaine. Dans cette thèse, nous avons adopté la deuxième approche.
1 Introduction générale |