PRINCIPES ÉTHIQUES DE CONCEPTION DES AGENTS CONVERSATIONNELS
ÉTHIQUE PAR CONCEPTION
La notion d’« ethics by design » (« éthique par conception »)52 repose sur l’idée de respect des valeurs fondamentales lors de la conception d’un système technique. Elle est définie au sein de cadres théoriques et méthodologiques comme la conception sensible aux valeurs53, le « value-sensitive design »54 ou le « Technology Assessment »55. Ces approches, qui sont en développement depuis plus de trois décennies, visent à intégrer de manières différentes les valeurs humaines dans les processus de conception des systèmes techniques.
Cela ne signifie pas pour autant que les valeurs sont directement traduites dans le code informatique ; leur intégration exige un procédé de conception impliquant les programmeurs, les entrepreneurs, les utilisateurs et les décideurs politiques. Ces approches fournissent ainsi une trame pour analyser la redistribution des responsabilités qu’induit la diffusion des systèmes d’intelligence artificielle, notamment des agents conversationnels. Elles fournissent également une trame pour la formation et l’éducation.
La démarche d’évaluation, concept étymologiquement lié à la notion de valeur, fait partie intégrante des approches d’« éthique par conception ». Si le cadre éthique est fixé en termes de valeurs, il s’agit d’évaluer le degré de correspondance entre ces valeurs et le fonctionnement d’un système. L’exemple le plus évident est celui de l’évaluation des biais induits dans la construction et l’entraînement des systèmes algorithmiques reposant sur l’apprentissage statistique à partir de grands corpus de données.
La non-discrimination des groupes d’utilisateurs par un système d’intelligence artificielle ne doit pas seulement être proclamée, mais bien mesurée à l’aide d’indicateurs quantitatifs spécifiques. Il existe un corpus de travaux scientifiques sur l’évaluation des biais, y compris pour les agents conversationnels, qui participent de la démarche « éthique par conception » de ces systèmes. Plusieurs acteurs industriels, y compris les géants du numérique56, intègrent déjà dans leur procédé de conception des outils de mesure des biais explicites ou implicites, contenus dans leurs produits.
PRINCIPE DE CONCEPTION 1 « ÉTHIQUE PAR CONCEPTION » DES AGENTS CONVERSATIONNELS
Les concepteurs d’un agent conversationnel doivent analyser, en phase de conception, chacun des choix technologiques susceptibles de provoquer des tensions éthiques. Si une tension potentielle est identifiée, ils doivent envisager une solution technique visant à diminuer ou à faire disparaître la tension éthique, puis évaluer cette solution dans des contextes d’usage réalistes.
Les autorités publiques doivent soutenir des recherches afin d’élaborer des méthodologies « éthique par conception » adaptées au développement des agents conversationnels. 2. BIAIS ET NON-DISCRIMINATION Les phrases produites par un agent conversationnel peuvent contenir des biais : par exemple, un corpus de paroles enregistrées peut contenir uniquement des voix d’adultes alors que le système est censé interagir aussi avec des enfants, ou un corpus de textes peut utiliser statistiquement plus fréquemment des pronoms de genre féminin plutôt que masculin.
Si les algorithmes peuvent être utilisés de manière positive pour révéler ces biais, ils intègrent aussi des biais de nature sociale ou historique. Le système reproduira alors ces biais, sauf s’il est équipé de modules spécialement conçus dans le but de les corriger, ce qui présuppose déjà la connaissance des biais possibles et la capacité à les corriger. Or, certains biais pourraient ne pas être connus à l’avance.
La présence des biais dans le comportement des agents conversationnels est une source majeure de conflits éthiques ou de discriminations directes : une personne pourrait être traitée de manière moins favorable qu’une autre au regard de critères tels que, notamment, l’âge, le sexe, le genre, le handicap ou la couleur de la peau, pour l’accès à un emploi, à un logement ou à un droit57.
Ils peuvent aussi entraîner des discriminations indirectes : par exemple, les premières personnes à passer un entretien d’embauche pourraient être désavantagées si les paramètres du chatbot qui analyse ces entretiens évoluent à la suite d’un apprentissage adaptatif, sous l’influence des données des candidats déjà auditionnés.Critères de pérennité pour le choix d’un format de données La capacité des institutions de conservation à restituer fidèlement le patrimoine numérique et à en conserver l’utilisabilité repose sur un certain nombre de facteurs dépendants du format d’encodage dans lequel les données sont enregistrées.
Dans le but d’évaluer les formats les mieux adaptés à la conservation à long terme, la BnF a élaboré la liste de critères suivante, à la suite d’autres institutions de conservation à travers le monde4. Cette liste n’est pas classée par ordre d’importance. On distinguera douze critères objectifs et deux critères subjectifs. Ces deux derniers critères sont fondamentaux dans l’évaluation de la capacité de l’organisation à conserver ses données numériques et rappellent que la pérennité n’est pas une caractéristique intrinsèque d’un format mais découle de l’engagement de l’institution qui les utilise à disposer d’outils de lecture, d’analyse, de traitement, et de migration, ainsi que des compétences nécessaires à leur utilisation.
Afin d’élaborer sa propre politique sur les formats pour la préservation numérique, chaque organisation est invitée à pondérer l’évaluation des critères objectifs à l’aune de ses priorités. Développer une politique sur les formats consiste à expliciter et justifier le compromis entre les objectifs définis par les critères mentionnés ci-dessous. Ainsi, si une organisation dispose déjà d’une forte compétence en interne et d’un outillage adéquat, mais que son budget destiné à l’augmentation de ses capacités de stockage est limité, elle valorisera sans doute la compacité (CPO COM) du format et réduira l’importance de la complexité (CPO-SIM).
Le présent document résulte donc de la démarche spécifique de la BnF, incluant l’évaluation pondérée des formats selon les deux critères subjectifs. Il présente les formats qui demandent un investissement raisonnable dans une optique de préservation à long terme, et reflète l’état actuel des connaissances, des politiques, des pratiques et des capacités de la BnF. Il ne prétend donc ni à l’exhaustivité ni à l’universalité.
Critères objectifs
Afin d’y faire référence plus aisément, ces critères sont identifiés par une série de lettres : « CPO » (pour « Critère de pérennité objectif ») et les trois premières lettres du terme le plus significatif. Identifiant et intitulé(s) Définition Justification CPO-SOC. Communauté d’utilisateurs / Sociabilité Le format est-il largement utilisé dans sa communauté cible ? Par le grand public ? Par les institutions de conservation ?
L’utilisation d’un format au sein de sa communauté est un indice de son adaptation aux besoins spécifiques de cette communauté. Un format également utilisé au-delà des institutions de conservation fournit des garanties supplémentaires, car les moyens de telles institutions pour maintenir un format sont limités comparés à ceux des industries culturelles. Ce critère est lié à celui des outils disponibles : plus la communauté d’utilisateurs est conséquente, plus elle est susceptible d’avoir développé ou fait développer des outils adaptés.
Ces données sont nommées « Objets-données de contenu » par l’OAIS. 4On en trouvera des exemples en section 5.2 du présent document. Réf BnF-ADM-2018-021638-03 Formats de données pour la préservation à long terme : la politique de la BnF page 12/81 CPO-DOC. Documentation Les spécifications du format sont elles publiées ? Si oui, sont-elles maintenues par un organisme de normalisation reconnu ? Quel est leur coût ?
Si les spécifications du format sont librement accessibles, il est possible à tout un chacun d’en comprendre la structure et, si le format est également libre, de développer des outils qui le prennent en charge. La documentation peut être partielle : ainsi certains industriels publient-ils des documents décrivant seulement la structure générale de leur format. Un processus de normalisation garantit que l’on dispose de spécifications décrivant l’intégralité des caractéristiques significatives d’un format.
Les formats maintenus par des organismes de normalisation nationaux (AFNOR) ou internationaux (ISO, W3C, IETF, etc.) offrent de meilleures garanties de maintenance et de disponibilité des spécifications, mais peuvent se révéler payants. On parle de standards de facto lorsqu’une spécification produite par une organisation est majoritairement adoptée dans une communauté bien qu’elle n’ait pas fait l’objet d’un processus de normalisation officiel. CPO-LIB.
Liberté d’utilisation Existe-t-il des obstacles juridiques à l’utilisation du format ? Si un format peut être totalement ouvert (documenté et utilisable par quiconque), il arrive également que des limitations d’usage pèsent sur des formats documentés, notamment en raison de brevets accordant des droits de propriété industrielle déposés au profit d’une organisation donnée. Ces brevets peuvent limiter ou interdire le développement d’outils prenant en charge le format. CPO-AUT. Indépendance / autonomie
L’utilisation du format requiert-elle d’autres formats, encodages, environnements logiciels ou matériels ? La consultation et l’utilisation d’un fichier numérique sont systématiquement dépendantes d’un environnement technique. Outre la dépendance à un environnement logiciel qui peut être propriétaire, abordée dans le critère « Liberté d’utilisation », l’utilisation de certains formats est tributaire d’environnements matériels, de bibliothèques logicielles, ou d’éléments habituellement non embarqués dans le fichier (par exemple, la dépendance de la plupart des PDF aux polices installées sur le poste de l’utilisateur).