Géométrie et vision (2)

Géométrie et vision 2

23 – 30 août 1994

par Bernard Teissier et Hervé Hamy

 

Participants :

Jean-Pierre d’Alès (Centre de recherches en mathématiques de la décision (CEREMADE), Université de Paris IX-Dauphine, France), Elie Bienenstock (Brown University, Providence, Etats-Unis), Stéphane Brault (Ecole polytechnique, Paris, France), Claude Brisson (Ecole Centrale, Paris, France), Antonin Chambolle (CEREMADE, Université de Paris-IX-Dauphine), Hervé Hamy (Centre d’étude du machinisme agricole, du génie rural, des eaux et forêts (CEMAGREF), Antony, France), Nicolas Mathieu (CEREMADE, Université de Paris-IX-Dauphine), Lionel Moisan (CEREMADE, Université de Paris-IX-Dauphine), Jean-Michel Morel (CEREMADE, Université de Paris-IX-Dauphine), Jean Petitot (Ecole des hautes études en sciences sociales (EHESS), Paris), Patrice Prez (CEMAGREF, Antony), Bernard Teissier, organisateur (Ecole normale supérieure (ENS Paris)

 

Compte rendu :

Il est essentiel de fonder une bonne géométrie de la vision : tel pourrait être le résumé de cette semaine d’enseignement et de réflexion. Toutefois, si la notion de géométrie est claire, celle de vision l’est moins ; elle prendra ici au moins deux acceptions : celle d’analyse de forme et celle de description d’un système perceptif réel. Au sens de Jean-Michel Morel, la forme est une certaine partie fermée d’une image en niveaux de gris ; l’analyser revient à en trouver un encodage suffisamment simple, à la reconnaître et à la rattacher à une certaine classe d’équivalence décrite pas le système. Pour Elie Bienenstock, l’objectif sera plutôt de modéliser la structuration du champ perceptif, c’est-à-dire notamment de trouver un moyen de composer différentes entités mentales.

Mais qu’a à voir la géométrie avec cela ? L’idée de Jean Petitot et de Bernard Teissier est qu’elle apporte des interprétations nouvelles, plus simples à condition de se “plonger” dans un espace abstrait, voire une description de la “syntaxe visuelle” utilisée par le cerveau. Par exemple, on sait que la topologie des connexions neurales dans le cortex est particulièrement complexe ; qu’en penser si l’on formalise cet “amas fibrillaire” par une sous variété d’un espace à suffisamment de dimensions ?

Essayons donc ici de dégager quelques-unes des notions essentielles de ces différentes approches, à travers quatre de leurs points de rencontre : le local, les problèmes posés par l’occlusion, le parallèle attendu/inattendu et la nécessité d’avoir (au moins) deux échelles de temps.

La première notion fondamentale est celle de localité : voyons comment la définir, à trois niveaux de modélisation différents, puis comment établir la notion, mathématique, de globalité.

Au niveau le plus bas de la perception visuelle, dans la rétine, se trouvent les cellules ganglionnaires : elles reçoivent l’information d’un nombre plus ou moins grand de photorécepteurs et opèrent donc sur une partie plus ou moins grande du champ rétinien, nommée champ récepteur. Ces champs récepteurs se recoupent et, dans l’idée de Jan Koenderink, leurs tailles définissent les échelles d’analyse du signal optique, c’est à dire les distances à partir desquelles l’information physique est signifiante : en dessous, elle est moyennée. Les différents formalismes seront donc définis sur de tels voisinages : la notion mathématique d’infinitésimal est remplacée ici par celle de local ; la dérivée du signal en un “point” sera ainsi évaluée à une certaine échelle, sur un voisinage, la notion de point n’étant plus pertinente ici (un bon cadre conceptuel est donc, par exemple, celui de la théorie des distributions).

Plus généralement, il s’agit de savoir s’il existe une unité fonctionnelle de base dans le traitement cortical du signal visuel. Il est notamment intéressant d’observer que, chez beaucoup d’espèces, on retrouve partout dans le cortex la structure neuronale suivante : des cellules pyramidales, excitatrices, prenant leurs entrées à la surface et envoyant leurs axones vers la matière blanche et latéralement ; et des cellules étoilées, inhibant fortement les neurones de leur localité. Il faut un grand nombre d’activations synchrones d’une cellule pyramidale pour qu’elle-même s’active : cela conforte l’hypothèse des synfire chains de Moshe Abeles ; les groupes de neurones fortement connectés forment des chaînes parallèles dans lesquelles une activation cohérente peut se propager. L’échelle d’analyse, la “brique de base” pertinente pourrait donc être celle de ces chaînes plutôt que celle des neurones. Mais comment penser le recollement, par des liaisons faibles, de ces multiples encodages locaux ?

Dans le sens que nous avons défini, analyser une forme signifie simplifier, intelligemment, l’image, de façon à avoir à en extraire un nombre suffisamment faible de caractéristiques géométriques, qui plus est de manière robuste par rapport au bruit (par exemple, des points de forte courbure). On choisit notamment d’imposer à cette simplification de respecter le principe d’inclusion locale : localement, une partie d’une forme incluse dans une autre doit le rester tout au long du processus. Cet axiome, avec d’autres, conduit à un traitement morphologique de l’image, au sens de la morphologie mathématique : on applique une suite d’opérateurs locaux qui visent à lisser la forme de la façon la plus simple possible, en réduisant parallèlement l’effet du bruit. En passant du local à l’infinitésimal, on trouve une équation aux dérivées partielles qui explicite l’évolution de la forme.

Cette notion de localité paraît imposée, quelle que soit l’approche choisie ; il faut pourtant arriver à comprendre comment intégrer ces données locales pour accéder à un niveau global, cohérent et analysable.

On trouve là un des leitmotivs : l’application qui au signal associe un tel ensemble de données sera localement triviale (une simple fonction), mais, globalement, cela peut être n’importe quoi (éventuellement trivial aussi). Par exemple, le ruban de Möbius est localement un simple bout de ruban, mais globalement, on ne peut distinguer une face de l’autre. Une bonne généralisation de la notion de fonction permet de conceptualiser cela : une fibration est définie localement sur un recouvrement d’ouverts (de voisinages) ; sur chaque ouvert, elle est triviale (ses sections sont des fonctions classiques à valeurs vectorielles), mais elle ne l’est plus forcément d’un point de vue global après recollement de ces ouvrais (on se permet des variations de la fonction). Ce concept de fibration donne une bonne, mais abstraite formalisation de la façon dont on peut retrouver une interprétation globale à partir d’analyses locales qui, à priori, ont peu de chances de former un tout cohérent.

Penchons-nous sur une autre contrainte en reconnaissance de formes qu’est l’invariance affine : une image et sa transformée affine (obtenue, par exemple, en penchant la feuille sur laquelle l’image est reproduite) sont supposées être équivalentes (comme un cercle et une ellipse). Cette notion d’équivalence est fondamentale : on la définit relativement à l’action d’un certain groupe, dont l’ensemble des transformations affines est un exemple. L’équivalence différentiable est plus générale : elle correspond à l’action d’une fonction très régulière, mais quelconque, pour laquelle un cercle sera rendu équivalent à n’importe quelle courbe fermée sans auto intersection.

C’est par exemple l’équivalence, différentiable (dans ce cas, la composition différentiable croissante) qu’on applique à la fonction “niveaux de gris” d’une image, pour prendre en compte le fait qu’un niveau de gris absolu n’est pas plus pertinent qu’un autre. Ces notions d’équivalence, ou d’invariance, définissent donc les classes de formes que l’on juge être signifiantes pour tel système de reconnaissance. Et elles vont nous permettre d’introduire, un peu plus loin, l’idée, tout aussi fondamentale, de stabilité structurelle.

Avant d’en arriver au phénomène, essentiel, d’occlusion, imaginons une partie d’une image dont le reste est volontairement caché : on peut l’interpréter de différentes façons ; par contre, dès que l’on enlève le masque et qu’on voit la forme entière, une seule interprétation se dégage. Cette expérience quotidienne montre qu’une analyse globale, contextuelle, sur toute la forme, va contraindre les analyses locales, sur les parties, de façon à les rendre cohérentes. Ainsi, une structure descendante (du tout vers les parties) se superpose à la structure montante (de la rétine vers le fond du cortex) et les flux dans les deux sens interagissent jusqu’à trouver un équilibre, une cohérence d’ensemble.

Une autre expérience, encore plus courante, est donc celle de l’occlusion : quand un objet en cache un autre, la superposition des deux est interprétée comme telle et non pas comme un seul objet biscornu. Cela vient certes de notre habitude des trois dimensions, mais Gaetano Kanizsa montre qu’il existe des “clés”, même sur une image, pour détecter de telles occlusions : ce sont les jonctions en T, formées par le contour de l’objet de devant et le contour visible de l’objet occulté (voir figure 1).

Ainsi, selon cette hypothèse, ces jonctions en T sont de véritables indices locaux à analyser séparément, influant sur l’interprétation globale de l’image. Il existe toutefois des cas où l’occlusion se fait sans jonction en T : cela se produit quand l’objet occulte et l’objet occultant sont localement de même luminance ; une analyse moins locale permet quand même de voir de tels contours dits virtuels.

En analyse de formes, les occlusions (classiques) posent (déjà) problème : le processus ne doit pas lisser les jonctions en T, sous peine de perdre l’information structurante. Plus : il doit faire évoluer le contour de l’objet occulté comme s’il se continuait. Pour cela, Jaroslavsky a proposé une méthode de filtrage fondée sur les modalités de la distribution des niveaux de gris dans le voisinage d’un point donné et détectées sur un histogramme : dans le cas d’un contour, il y aura a priori deux luminances différentes, donc deux modalités ; pour une jonction en T, trois, et pour une ombre quatre. Quelle caractérisation la géométrie pourrait-elle donner ?

Une jonction en T est typiquement une forme structurellement stable : elle continue d’exister si l’on déplace légèrement les deux objets. Mathématiquement, une application sera dite structurellement stable si toute application voisine, pour une certaine distance, lui est équivalente (au sens de l’équivalence différentiable, la plus générale). Une application régulière est génériquement stable. Par contre, deux objets ayant leurs contours exactement tangents sont dans une situation instable, puisqu’une perturbation infinitésimale va soit les séparer, soit entraîner l’occlusion de l’un par l’autre, avec l’apparition de jonctions en T, deux situations qualitativement différentes. Cette notion est fondamentale en vision : on peut, par exemple, interpréter le rôle des saccades oculaires (petits mouvements de l’œil très rapides) comme une opération de stabilisation structurelle permanente.

On peut alors caractériser mathématiquement une jonction en T en raisonnant sur la notion de contour apparent comme suit.

En optique géométrique, un contour est défini par les rayons lumineux arrivant à l’œil et tangents à la surface de l’objet. Dans la même idée, considérons les projections de la surface de l’objet sur une feuille (l’image plane que nous voyons), parallèlement à une certaine direction. Cette projection est une application structurellement stable. La projection d’une partie “intérieure” de l’objet est triviale, au sens mathématique. Par contre, il y a des points où la direction de projection est tangente à la surface de l’objet : ce sont des singularités de cette application, du type le plus simple ; les points correspondants font alors partie du contour dit apparent de l’objet, de sa silhouette. De telles singularités sont stables : si on bouge un peu l’objet ou la direction de projection, il y aura toujours un contour apparent. Maintenant, si cette direction est tangente au contour même, il y aura une singularité d’ordre supérieur, un point d’arrêt (comme quand on regarde une feuille pliée en deux à une extrémité de sa pliure, voir figure 2).

Hassler Whitney a montré que ces deux configurations sont les seules qui soient structurellement stables, dans notre cas, et qu’elles sont caractérisables par les dérivées d’ordre respectivement deux et trois de la surface.

Une jonction en T n’est alors que le croisement simple de deux contours apparents : on peut, théoriquement, la détecter par des filtres évaluant, localement, les dérivées d’ordre deux du signal optique.

La manière de traiter ces jonctions en T est une instanciation de la loi gestaltiste de bonne continuation : un contour occulté doit être prolongé de la façon la plus simple, par exemple en gardant la même courbure (un camembert (entamé) devrait être complété en disque).

La notion géométrique de fibré des éléments de contact permet de conceptualiser cela : un élément de contact d’une courbe, en un point, c’est, grossièrement, la donnée de ce point et de la direction de la tangente. Réunir tous les éléments de contact de la courbe en un fibré encode en plus les variations de la direction des tangentes. L’intérêt est alors que, si on se donne dans l’image un morceau de courbe X, une certaine application permet de prolonger X de la façon la plus simple, par la même courbure. De plus, les points particuliers de C (X) (la structure de contact de X), points doubles, points d’arrêt, simplement repérables, donnent les tangentes particulières de X (bitangentes, tangentes d’inflexion).

Un point du fibré (un élément de contact) correspond à un point du plan et à une droite passant par ce dernier : tant que le point n’est pas sur C (X), la droite-image n’est pas une tangente et coupe la courbe X en deux points distincts ; quand on traverse C (X), la droite devient tangente à X (et peut même être une tangente particulière si on passe en un des points particuliers de C (X) (voir figure 3).

On peut se représenter facilement l’équivalent dans l’espace : un point du fibré est un plan de visée d’un objet O et l’équivalent de C (X) est une surface S (O) ; traverser cette surface correspond alors, par exemple, à regarder à côté de l’objet, à en avoir une vue tangente, puis à regarder la surface même de l’objet. Et se déplacer sur S (O) revient à tourner autour de l’objet en regardant toujours son contour : il arrivera alors un moment où on découvrira une nouvelle facette de l’objet, un nouvel aspect ; on dit que le point correspondant sur S (O) fait partie du discriminant Ce discriminant est un ensemble de courbes sur S (O), avec elles-mêmes des points particuliers (comme sur C (X)) : il encode toutes les “surprises” que l’on aura en tournant autour de l’objet, toute sa géométrie “fine”.

Ce formalisme, quelque peu abstrait, mais fort efficace, rappelle un autre thème récurrent : il faut coder l’inattendu, l’attendu peut être anticipe. La complétion par des formes triviales, telle que nous l’avons préconisée, et sa réalisation géométrique permettent d’encoder l’attendu (comme, par exemple, toutes les vues “régulières” d’un objet), de simplifier automatiquement : c’est inhérent au formalisme. La notion de discriminant, elle, matérialise, simplement aussi, l’ensemble des irrégularités que l’on risque de rencontrer. Ce parallèle attendu/inattendu renvoie donc à la dualité bien mathématique de régularité/singularité. De plus, la connaissance du type de singularité donne la géométrie locale : on peut anticiper le comportement autour du discriminant.
On peut retrouver cette notion d’attendu directement câblée neuro biologiquement : Sillito a montré que les premiers neurones corticaux codant les contours ont aussi pour fonction de synchroniser les neurones de la couche juste antérieure. Ainsi, lorsqu’un contour apparaît dans les champs récepteurs de plusieurs neurones, ceux-ci auront tendance à anticiper, à prolonger le contour dans sa direction, en forçant la synchronisation.

Arrivons-en à ce qui aura été le quatrième leitmotiv de cette semaine. On a vu qu’il faut une grande conjonction d’excitations synchrones pour activer une cellule pyramidale. La structure temporelle fine, de l’ordre de la milliseconde, est donc déterminante. A partir de là, une “onde d’activités corrélées” peut se propager dans la chaîne des neurones fortement connectés. Cette onde aura une certaine stabilité, de l’ordre de la seconde, ainsi que Moshe Abeles l’a observé expérimentalement. C’est ainsi qu’une singularité physique, une activation hautement synchrone peut engendrer une cohérence d’ordre psychologique. A ces deux niveaux d’analyse correspondent donc deux échelles de temps physiologiques. Cela remet fortement en cause l’hypothèse de David Perrett : les relations entre entités perceptives ne seraient pas encodées par quelques neurones spécifiques, comme il le proposait, mais plutôt dans la cohérence temporelle entre les activités de plusieurs chaînes.

Remarquons pour conclure l’intérêt d’une telle interdisciplinarité dans l’étude du phénomène de la vision et la pertinence théorique des mathématiques développées ici. Certains développements intéressants pourront toutefois être réalisés en les rendant opérationnels, utilisables en vision computationnelle : il faudra, par exemple, prendre en compte les contraintes de localité, d’échelles et d’invariance sous changement de conditions d’illumination. Sans cela, cette géométrie restera de l’épistémologie.

______

Articles disponibles dans les archives de la Fondation des Treilles

D. Mumford
On the computational architecture of the neocortex
Biological Cybernetics, Vol. 65, pp. 135-145, 1991 – Editeur: Springer ­Verlag

Francis Crick
Function of the thalamic reticular complex: the searchlight hypothesis
Proc. Natl. Acad. Sci. USA, Vol. 18, pp 4586-4590, 1984 

Edmund T. Rolls
Functions of neuronal networks in the hippocampus and neocortex in memory
Neural Models of Plasticity, pp. 240­-265, 1989 – Editeur: Academic Press Inc. 

Adam M. Sillito,  Helen E. Jones, George L.Gerstein / David C. West
Feature­linked synchronisation of the thalamic relay cell firing induced by feedback from the visual cortex
Nature, Letters to Nature, Vol. 369, 9 June 1994, pp. 479­-482 

Antonio R. Damasio
The brain binds entities and events by multiregional activation from convergence zones
Neural Computation, Vol. 1, pp. 123­-132, 1989 – Editeur: Massachusetts Institute of Technology

 

Ce contenu a été publié dans Activités, Archives mises en ligne, avec comme mot(s)-clé(s) , , , . Vous pouvez le mettre en favoris avec ce permalien.