Catégorisation visuelle rapide des scénes naturelles
Le traitement des informations visuelles au sein des scénes naturelles
Notre environnement visuel est d’une extraordinaire richesse. Pourtant, de nombreuses 1tudes r1v&lent que les m1canismes visuels implémentés dans notre cerveau sont par essence limités, incapables de saisir toute la richesse du monde extérieur ‡ chaque instant. Notre perception compl&te et instantan1e d’un monde riche autour de nous serait-elle alors une illusion C Comment percevons nous réellement notre environnement C Je premier chapitre de cette th&se ne prétend pas répondre de mani&re compl&te et d1cisive ‡ ces questions. Il s’attachera plus particuli&rement ‡ comprendre quelles sont les strat1gies mises en place par le syst&me visuel pour faire face ‡ la complexit1 des sc&nes naturelles, ces stimuli qui nous entourent en permanence. Leux axes principaux seront abord1s. Nous verrons tout d’abord comment le syst&me visuel parvient ‡ sélectionner certains objets dans le but d’interagir avec eux dans des environnements qui contiennent typiquement de nombreux éléments non pertinents pour le comportement. Cette importante revue de la litt1rature d1voile les limites du codage en parall&le des objets de notre environnement. Cependant, en opposition ‡ un courant important de recherche, des capacités insoupDonnées de traitement simultané seront mises en évidence. Lans une deuxi&me partie, nous tenterons de comprendre le fonctionnement du syst&me visuel quand celui-ci n’a plus pour tWche de se focaliser sur quelques objets, mais au contraire d’assigner une catégorie visuelle ‡ la sc&ne elle-m8me, ce qui requiert ind1niablement la prise en compte simultan1e d’un maximum d’informations dans la sc&ne.
Un modele hybride : le guided search model
Pour rendre compte de cet ensemble de donn1es contradictoires, la FIT a eu à prendre en consideration certaines propri 1 t1s des modèles parallèles sugg1r1es par d’autres (voir plus bas). Pour expliquer les recherches efficaces de conjonctions de caract1ristiques 1l1 mentaires, beaucoup de chercheurs 1 cartent l’ide de d1 tecteurs pr1- attentifs de telles conjonctions qui poseraient un problème d’explosion combinatoire des possibilit1s de codage. Je mod1le de recherche guide (>.2, pour _ guided search model `, golfe et al., 1989 ; golfe & >gancarz, 1996) met en avant le fait que des m1canismes parallèles pourraient restreindre la recherche s1 rielle aux endroits les plus probables dans la scène visuelle (il faut signaler que Treisman (1998a) a propos x1 une version r1vis1e de son propre modèle qui est très similaire au >.2, voir aussi Cave (1999) qui propose une version alternative du >.2). Ceci serait r1alis1 par un amorÇage descendant (_ top-down `) des cartes d’1l1 ments de base. mon amorÇage serait rendu 11 possible par la connaissance en avance de la composition en 1l1 ments de base de la cible. Concrètement, le >.2 est compos1, comme la première version de la FIT, de cartes documents simples et d’une carte d’ activation similaire ‡ la carte de contrôle de la FIT. Le mode de fonctionnement du >.2 est le suivant. J’ Attention se dirigerait d’abord vers l’objet qui a envoy 1 l’activit 1 la plus forte ‡ la carte d’activation. Pour chaque position dans la carte d’activation, i.e. pour chaque objet dans le champ visuel, la somme des activations des diff1rentes cartes d’1l1ments de base est calcul1e. Lans chacune de ces cartes, le degr1 d’activation est proportionnel au degr1 de similarit1 entre l’1l1ment encod1 dans une carte donn1e et les 1l1ments de la cible, sp1cifi1s par un amorDage descendant (dans la version r1vis1e de la FIT la s1lection descendante se fait par une inhibition des distracteurs, plut9t que par une activation de la cible dans le cas du >.2). Ja carte d’activation classe tous les items du champ visuel par ordre, de celui qui a le plus de chance d’8tre une cible ‡ celui qui a le moins de chance d’8tre une cible. Ja recherche visuelle consisterait a parcourir cette liste, un item apr&s l’autre jusqu’‡ ce que la cible soit trouv1e. Ainsi, selon le >.2, il n’y a pas de diff1rence intrins&que entre les recherches d’1l1ments de base et de conjonctions d’1l1ments. Jes sujets se comportent diff1remment dans les deux tWches parce que dans la recherche d’une conjonction, les distracteurs reDoivent aussi une activation descendante, ayant pour cons1quence un niveau de bruit plus important dans la carte d’activation par rapport ‡ la situation d’une recherche d’un 1l1ment non partag1 par les distracteurs. Par cons1quent, plusieurs d1placements de l’attention sont d1clench1s par la carte d’activation dans le premier cas, pas dans le dernier. J’information visuelle pr1-attentive b1n1ficie d’un statut particulier dans les mod&les hybrides tels que le >.2. Au lieu de la _ soupe ` d’attributs 1l1mentaires originellement envisag1e par Treisman & >elade (1980), il semblerait plut9t que le monde visuel pr1-attentif soit d1coup1 en fichiers d’objets (colfe & ‘ennett, 199’, voir aussi Rensink, 2000a,b). .elon cette hypoth&se, avant l’arriv1e de l’attention, le syst&me visuel d1couperait le monde en objets potentiels, ou proto-objets, les 1l1ments appartenant ‡ chaque objet 1tant regroup1s sous la forme d’un _ fichier ` 1 . Au sein de 1 Cette conclusion provient notamment du fait que les fonctions de recherche indiquent que les espaces non occup1s par des objets dans une sc&ne ne sont pas visit1s (colfe, 1994). kn pourrait aussi voir dans cette 12 chaque fichier, les 1l1ments qui composent un objet potentiel ne sont pas reli1s entre eux, cPest-‡-dire qu’il serait impossible de conna]tre leur organisation spatiale avant le d1ploiement de l’attention ‡ cet endroit (Figure 3). Cette absence totale de structuration spatiale pr1-attentive a cependant 1t1 contest1e r1cemment sur la base de nouvelles exp1riences de recherche visuelle (Lonnelly et al., 2000). Je codage spatial dans le syst&me visuel et tout particuli&rement dans les aires repr1sentant les objets est abord1 en d1tail plus loin dans ce chapitre.
Chapitre 1 : |