Portails et entrepôts scientifiques

RI et exhaustivité, une utopie ?

Claire Denecker faisait remarquer, dès l’entrée dans le 21e siècle, que : « les réservoirs d’informations n’ont jamais été aussi nombreux ni aussi facilement accessibles ; pourtant des contraintes très diverses entravent la lisibilité (Denecker et al., 2000, p. 16) ». D’un point de vue général, dès 1998, le premier index Google recensait 26 millions de pages.
Dix ans plus tard, en juillet 2008, l’index est passé à un trillion d’entrées (Alpert et Hajaj, 2008). La surabondance d’informations entraîne un risque de suffocation des chercheurs car il est devenu impossible de gérer une telle quantité de données, la profusion semblant parfois aller à l’encontre de l’ergonomie (Denecker et al., 2000, p. 17). L’information arrive sous forme d’un mélange non trié de documents pertinents, de publicités et de documents futiles. Parmi cet amalgame, il est quasiment impossible de faire émerger directement une sélection de documents pertinents (Pochet et Thirion, 1999).
L’expression anglaise « information overload », qui décrit ce phénomène peut être traduite en français par infobésité 1 . Ce néologisme, s’il n’est pas très élégant, donne une image mentale précise de l’accès à l’information. Le domaine scientifique n’échappe pas à cette tendance à la surabondance (voir figure B.1 en annexe). Heureusement, les informations à disposition sont crédibles car validées par un comité de lecture composé de scientifiques. Toute la littérature scientifique n’est pas considérée comme ayant la même valeur. La bibliométrie est présentée par les instances d’évaluation scientifiques comme un facteur important pour effectuer son choix parmi les documents présentés (Coutrot, 2008, Filliatreau, 2009).

Notion de visibilité et d’accès sur l’Internet

Notre recherche met en exergue le fait que l’utilisation des moteurs de recherche commerciaux s’est généralisée dans la RI scientifique. Outre la question de la crédibilité des informations trouvées par ce moyen, une autre question est celle de la couverture de la recherche. En effet, si les moteurs de recherches indexent l’ensemble des informations ramenées par leur robots, ils n’ont évidement pas la possibilité de parcourir les sites qui leur sont inaccessibles. Le Web visible ou accessible La zone de recherche visible par les moteurs de recherche commerciaux classiques est appelée Web visible. Il s’agit de la plupart des sites web statiques dont l’accès en lecture n’est pas restreint. L’accès, et donc la visibilité d’un site sont grandement facilités par le fait que d’autres hypertextes y font référence par hyperlien.

Le Web invisible ou profond

Les sites dynamiques reliés à une ou plusieurs bases de données ne sont indexés que sur les parties statiques de leur structure. En effet, les contenus de ces sites sont construits par des interrogations des bases de données. Sans interrogation d’un agent, humain ou non 1 , capable de saisir la syntaxe de requête, le contenu reste sommaire, voire sans objet. De plus, certains de ces sites sont soumis à des abonnements, payants pour la plupart, ce qui rajoute en opacité pour l’indexation par les moteurs de recherche. Selon Sherman et Price (2002) le web invisible peut être décomposé en quatre sous-catégories.
1. Le Web opaque (The Opaque Web) : Il s’agit de pages classiques, qui pourraient donc être indexées par les robots de moteurs de recherche. Elles ne le sont cependant pas faute de liens entrant (pas d’index). Du fait de cette absence de liens entrant, le Pagerank est faible et la page n’est pas indexée. Ces pages sont donc accessibles uniquement par URL et non par navigation.
2. Le Web privé(The Private Web) : Ces pages ont une audience volontairement réduite. Elles sont physiquement accessibles par le robot, mais exigent une authentification logicielle pour afficher le contenu. L’authentification peut se faire de manière logicielle par interaction avec l’usager et le contenu s’affiche ensuite.
3. Le Web propriétaire ou The Proprietary web : Ces pages ne sont pas accessibles par le robot. Il est aussi possible de proccéder à un accès restreint de manière native par le serveur web. Les méthodes sont nombreuses, qu’il s’agisse de filtrage de provenance (le cas des intranets), fichiers bloquant l’accès 2 , ou empêchant l’accès d’un robot.
Dans une moindre mesure, le spider des moteurs de recherche est sensé respecter les instructions inscrites dans le fichier robot.txt. Ce fichier est un simple fichier texte qui contient des instructions pour les robots afin de limiter l’indexation d’un site aux parties désirée par le webmestre.

Les OPAC

L’acronyme OPAC (Online Public Access Catalog) fait référence à la version accessible en ligne de l’interface du catalogue d’une bibliothèque. Ce catalogue permet de chercher un document à partir de ses métadonnées (auteur, titre, date ou mots clés) dans le progiciel de gestion intégré de bibliothèque (SIGB), mais aussi d’en connaître la localisation et/ou la disponibilité.

Le Sudoc

Le Sudoc 1 , ou catalogue du Système Universitaire de DOCumentation, est un catalogue français réalisé par les Services Communs de Documentation (SCD), les bibliothèques des établissements de l’enseignement supérieur et de la recherche et l’Agence Bibliographique de l’Enseignement Supérieur (ABES). Selon le site officiel de l’Abes qui pilote le projet, au premier juillet 2010 le catalogue Sudoc comptait plus de 9 millions et demi de notices bibliographiques décrivant tous les types de documents 2.
Ce chiffre a été actualisé à 10 millions en 2012 3 . Le catalogue Sudoc décrit également les collections de revues et journaux d’environ 2000 établissements documentaires hors enseignement supérieur.

Les moteurs de recherche scientifiques

Google Scholar

Google Scholar est un moteur de recherche de productions scientifiques proposé en 2004 par l’ingénieur principal de Google, Anurag Acharya (Lardy, 2011). Notons que pour une question de visibilité le Sudoc est indexé par Google Scholar grâce à un partenariat entre l’Abes et Google (Bérard et Gibert, 2008). Ce partenariat offre également de l’information correctement indexée à Google Scholar, ce qui lui fait habituellement cruellement défaut (Beel, 2010, Jacsó, 2010). Nous avons noté au cours de nos essais des fonctionnalités de Google Scholar que le formatage des données bibliographiques est approximatif, que ce soit en matière d’exposition (COinS, doi, embeded RDF) ou BibTEX. Les données elles-mêmes sont partielles, ce qui les rend inexploitables en l’état. Il faut notamment régulièrement réajuster le type du document. Le type « Inproceedings » (acte de conférence) est régulièrement remplacé par le générique « article ». Un article de revue n’est pas cité de la même façon qu’une communication avec actes. Cette remarque peut sembler de moyenne importance de prime abord. Cependant, la typologie BibTEX oblige à une certaine rigueur. Les revues et conférences scientifiques qui exigent une communication au format LaTEX désirent une bibliographie irréprochable. Pour conclure sur Google Scholar, nous reprendrons la remarque de Lardy (2011) « On peut donc dire que Google Scholar est un bon point de départ mais qu’il n’a pas encore la maturité des outils de recherche documentaires commerciaux. »

Microsoft Academic Search

Ce moteur de recherche d’articles académiques (actuellement en version bêta) se place en alternative à Google Scholar. Il indexe plus de sept millions et demi de documents et permet une interrogation en texte intégral mais également par auteur, conférence, revue et date. Ces critères peuvent être croisés. L’innovation principale de ce moteur repose sur la détection d’entités nommées. La page de résultats par défaut présente le nombre de citations d’un article et propose un lien supplémentaire lorsqu’il est téléchargeable. Un élément appréciable sur ce moteur de recherche dédié à la science est le graphe de co-écriture pour un auteur (cf. Figure 2.2). Cet affichage permet de comprendre les partenariats d’écriture scientifique.

Les éditeurs en recherche scientifique génériques

ScienceDirect

ScienceDirect est le service en ligne de l’éditeur de revues scientifiques Elsevier. Il couvre beaucoup domaines de la recherche scientifique dont les sciences humaines et dures (qui nous intéressent plus particulièrement). L’accès à ce site est payant, mais il est souvent disponible au service commun de documentation de l’enseignement supérieur ou à travers des OPACS universitaires qui y sont abonnés.

Les éditeurs de recherche scientifiques spécifiques

Ce qui fait la force des éditeurs, c’est l’homogénéité et la qualité des productions.
Cette qualité a évidemment un coût, payé au prix fort par les bibliothèques universitaires et autres services de documentation.

Le portail de l’Association for Computing Machinery (ACM)

Le portail ACM (Association for Computing Machinery) est l’outil officiel de diffusion de documentation scientifique et technique du consortium ACM. L’ACM s’auto-proclame « la plus grande société informatique scientifique pour l’enseignement et la recherche » sur sa page d’accueil 1 . Elle propose des ressources relatives à l’informatique en tant que science et profession. Dans le cadre de sa mission, l’ACM indexe et donne accès à ses nombreuses revues, actes de conférences et communications, mais aussi aux documents d’autres éditeurs.
Malheureusement, l’interface d’ACM est décrite par le service de documentation de l’Université de Sufolk à Boston comme « étonnamment peu conviviale » 1 . Du point de vue de l’usage, il est courant de commencer par une recherche par mot clé en haut à droite de l’interface d’interrogation de la page de recherche classique que montre la figure 2.3 2 . Toujours selon la même source (Bibliothèque de l’Université Sufolk de Boston), ce type de recherches aboutit régulièrement à des milliers de résultats, parfois hors-sujets. Pour optimiser la recherche, il souvent obligatoire de passer par la recherche avancée proposée par le portail. Il est également possible de parcourir les résultats d’une requête par type de document. Depuis le portail, le texte intégral de chaque article publié par ACM est accessible par abonnement ou par achat à l’unité. Des notices bibliographiques d’articles de références de chaque grand éditeur sont également disponibles. Nous examinerons plus en détail la classification ACM lors de l’étude comparative des taxonomies en informatique.

Les archives scientifiques ouvertes

Une archive scientifique ouverte ou base de dépôt est un portail où les professionnels (ingénieurs, chercheurs, enseignants) en sciences et techniques peuvent mettre leur production à la disposition de la communauté scientifique en accès libre. L’objet de ces réservoirs (repositories) de connaissances n’est pas de juger la valeur scientifique et technique d’un document mais de rendre possible la diffusion électronique de la littérature. L’accès se veut complètement gratuit et sans restriction. Les plateformes de dépôts ouvertes n’effectuent donc par de relecture par des pairs. En effet, globalement, les documents archivés ont déjà subi cette étape, les documents sont déclarés postprint ou postpublication. Il est néanmoins possible de soumettre des rapports ou autres documents non publiés, ce qui sera spécifié. Ce type de documents n’ayant pas subit le jugement des pairs est nommé preprint ou prépublication.
La déclaration Budapest Open Access Initiative (Chan et al., 2002) définissait l’accès libre à la littérature de la manière suivante : « Mise à disposition gratuite sur l’Internet public, permettant à tout un chacun de lire, télécharger, copier, transmettre, imprimer, chercher ou faire un lien vers le texte intégral de ces articles, les disséquer pour les indexer, s’en servir de données pour un logiciel, ou s’en servir à toute autre fin légale, sans barrière financière, légale ou technique autre que celles indissociables de l’accès et l’utilisation d’Internet ».
L’intérêt de ces systèmes est double. Le premier intérêt est l’interopérabilité des protocoles de mise à disposition (OAI-PMH). Un unique outil correctement configuré pourra donc tous les parcourir (parser) en un seul moissonnage. Le deuxième avantage de ces dépôts est la gratuité du service offert, même si l’intégralité du catalogue n’est pas obligatoirement en accès libre de droit. En effet, parfois il est illégal de déposer un article sur lequel il a été signé une renonciation de droit d’auteur (le copyright transfert agreement). Dans ce cas, une notice bibliographique peut être rédigée et soumise sur les archives ouvertes. Cette notice comprenant le titre et le résumé, il est possible de se faire une idée du document et de le chercher par d’autres moyens, notamment en SCD. L’auteur, de son côté, gagne en visibilité (Odlyzko, 2002) grâce à un public élargi (Antelman, 2004).