Présentation de l’outil utilisé pour l’intégration de données
Talend Open Studio est développé par Talend, une société française dynamique et relativement jeune. La première version de « Talend Open Studio » a vu le jour au 2ème semestre 2006, et la version actuelle est la 2.3. Talend Open Studio est un ETL du type « générateur de code ». Pour chaque traitement d’intégration de données, un code spécifique est généré, ce dernier pouvant être en Java ou en Perl. Les données traitées et les traitements effectués sont donc intimement liés. Talend Open Studio utilise une interface graphique, le « Job Designer » (basée sur Eclipse RCP) qui permet la création des processus de manipulation de données : De nombreux types d’étapes sont disponibles pour se connecter aux principaux SGBD (Oracle, DB2, MS SQL Server, PostgreSQL, MySQL,…) ainsi que pour traiter tous les types de fichiers plats (CSV, Excel, XML), aussi bien en lecture qu’en écriture. Talend facilite la construction des requêtes dans les bases de données en détectant le schéma et les relations entre tables. Un référentiel permet de stocker les métadonnées afin de pouvoir les exploiter dans différents jobs. Par exemple on peut sauvegarder le type et le format des données d’entrée d’un fichier CSV afin de pouvoir les exploiter ultérieurement.
Page d’acceuil
Dans cette page ci-dessous, on a la page d’acceuil de l’outil talend data integrator. Figure 0-1 : Page d’acceuil Talend 2. Description du tableau de bord Dans cette page ci-dessous on le tableau de bord de talend avec ses différents composants : Les jobs Les contextes Le code Les modéles sql Les métadonnées
La documetation
La palette Les composants ect…….. Figure 0-2 : Tableau de bord de l’outil talend 3. Une gamme complète de composants : Le Job Designer intègre une « Component Library »: une palette graphique de composants et connecteurs. Les processus d’intégration sont construits simplement en déposant des composants et connecteurs sur le diagramme, en dessinant leurs connexions et relations, et en modifiant leurs propriétés. La plupart de ces propriétés peut être issue des métadonnées déjà définies. La Component Library inclut plus de 900 composants et connecteurs, fournissant des fonctions basiques telles que des associations, transformations, agrégation et recherches; des fonctions spécialisées comme le filtrage de données, le multiplexage de données… Cette librairie supporte tous les principaux SGBDR (Oracle,Mysql,PostgrelSql…..), formats de fichiers, annuaires LDAP… La Component Library peut facilement être complétée en utilisant des langages standards tels que Perl, Java ou SQL. Figure 0-3 : Palette ou composant de l’outil Talend 45
Des traces et statistiques d’exécution en temps réel
La conception très visuelle des « jobs » permet de présenter des statistiques d’exécution en temps réel ou encore de tracer les données transitant ligne à ligne dans les composants de la chaîne de traitement. Quand un job d’intégration est lancé via le Job Designer (en mode graphique), il est possible d’afficher les statistiques de traitement en temps réel, montrant le nombre de lignes traitées et rejetées, ainsi que la vitesse d’exécution (lignes par secondes). On peut ainsi repérer immédiatement les goulots d’étranglement. Il est aussi possible d’activer un mode de traçage, qui affiche pour chaque ligne le comportement adopté et montre le résultat des transformations. Les fonctionnalités de débogage traditionnelles sont évidemment disponibles.