Paléographie numérique / Digital Palaeography

Liste des participants :

Vincent Christlein, Arianna Ciula, Véronique Eglin, Nicoletta Giovè Marchioli, Marlène Hélias Baron, Mike Kestemont, Marilena Maniaci, Denis Muzerelle, Torsten Schassan, Mathias Seuret, Marc Smith, Daniel Stoekl Ben Ezra, Peter Stokes, Dominique Stutzmann (organisateur), Ségolène Tarte (organisateur), Enrique Vidal, Nicole Vincent, Georg Vogeler.

 

stutzmann_paleographie_groupe2016

 

Paléographie numérique : du défi technique au défi épistémologique / Digital paleography: from technical to epistemological challenge
par Dominique Stutzmann (Institut de Recherche et d’Histoire des Textes (CNRS) et Ségolène Tarte (Université d’Oxford)
21 – 26 novembre 2016

Résumé

Le séminaire « Paléographie numérique : du défi technique au défi épistémologique » a réuni dix-huit chercheurs (dont trois juniors) en histoire de l’écriture, en analyse d’image par ordinateur et reconnaissance de l’écriture manuscrite (HTR), en ethnographie des sciences et humanités numériques. Partant de l’exemple concret des travaux menés dans le cadre de la compétition internationale ICFHR 2016 Competition on the Classification of Medieval Handwritings in Latin Script portant sur la classification automatisée des écritures médiévales, le séminaire a amorcé un riche dialogue interdisciplinaire mettant en rapport étroit les aspects qualitatifs et quantitatifs de la recherche en paléographie numérique, qu’il s’agisse de la production de résultats paléographiques, d’expérimentations à mener,  ou de la formulation d’hypothèses et d’instrumentation pour les tester. Les échanges ont donc porté sur les données, les outils d’analyse, les outils de visualisation, les interprétations, et l’alignement des questions de recherche au sein de communautés entrecroisées. Remettant en cause les notions objectivisantes et essentialistes de « vérité terrain » et plaçant au cœur de l’analyse la nécessité herméneutique en histoire, ces réflexions ont permis de mettre en lumière des domaines nouveaux pour une recherche interdisciplinaire, telles que l’identification des niveaux de formalité et le rythme des écritures, mais aussi de faire émerger le concept de paléographie numérique comme science expérimentale à la recherche d’une vérité négociée.

Mots clefs

Paléographie numérique ; humanités numériques ; science expérimentale

 

Compte-rendu

La paléographie numérique fait se rencontrer les Sciences de l’Ingénieur et les Sciences humaines avec des enjeux importants : amélioration d’image, alignement texte-image, lecture automatisée des écritures anciennes, modélisation et création d’ontologies, utilisation des données d’utilisation pour les informaticiens ; lecture, datation et localisation, analyse graphique et catégorisation des écritures, identification des mécanismes évolutifs pour les historiens de l’écriture. À la rencontre des disciplines, le dialogue recèle ses propres défis : les questions heuristiques, cognitives et épistémologiques doivent être également traitées. Ergonomie, visualisation, et surtout interprétation de résultats de communautés scientifiques aux méthodes différentes sont des champs où la recherche doit progresser.

La présente réunion s’inscrivait dans la filiation intellectuelle de deux rencontres internationales : le colloque Paléographie fondamentale, paléographie expérimentale : l’écriture entre histoire et science à Paris en 2011, organisé par M. Gurrado et D. Stutzmann [1], d’une part, et, d’autre part, le séminaire « Digital Palaeography : New Machines and Old Texts » à Dagstuhl en 2014, organisé par T. Hassner, R. Sablatnig, D. Stutzmann et S. Tarte [2]. Enrichie de l’expérience des organisateurs, elle en a modifié les conditions et les attentes en créant un terrain commun de discussion grâce au corpus CLaMM, comprenant 5000 images annotées et aux résultats de la compétition internationale ICFHR 2016 Competition on the Classification of Medieval Handwritings in Latin Script portant sur la classification automatisée des écritures médiévales. Ce séminaire marque clairement une nouvelle étape de la paléographie numérique : les participants sont sortis de la sphère des présentations et du dialogue pour entrer pleinement dans le domaine de la collaboration et de la production commune du savoir.

Une science expérimentale à la recherche d’une vérité négociée

Partant de questionnements sur les  modes d’interaction de la paléographie et de la recherche en analyse d’image par ordinateur et  à la possibilité de fournir des arguments issus d’une discipline à un autre champ de la connaissance, les chercheurs commencent désormais à articuler leur système de preuve respectif pour créer des systèmes efficaces et transmissibles, de sorte que les chercheurs de toutes communautés puissent les comprendre, les évaluer et leur faire confiance. Pour favoriser les collaborations fructueuses, ce séminaire a dépassé l’appréhension de la « boîte noire » et de la crainte qu’un système opaque suscite, en rappelant que l’humain est largement aussi une « boîte noire » dans son raisonnement. La notion de « communication » a été précisée et la dualité de l’expression « paléographie numérique » a, une semaine durant, été dépassée pour montrer la richesse du caléidoscope disciplinaire.

Le second défi que ce séminaire espérait relever était d’identifier les modes d’interaction adéquats entre l’homme et la machine, autant du point de vue technique que d’un point de vue heuristique et herméneutique. « Utiliser les utilisateurs » pouvait en effet être vu comme une étape du développement et de l’analyse des données, assurant une meilleure intercompréhension, une amélioration des algorithmes ou de leurs résultats, et une meilleure interprétation de ces derniers. Les échanges ont largement négligé l’intégration de « l’humain dans la boucle », sauf pour rappeler des exigences de vérifiabilité, et se sont concentrés sur la présence de savoirs et postulats implicites dans les données et les outils, ce qui a permis de formuler des conclusions nettement plus riches à cet égard.

Il faut tout d’abord souligner la notion de « vérité négociée » (remplaçant celle de « vérité terrain ») : celle-ci est le résultat d’un accord pour la construction de jeux de données, c’est-à-dire des données constituées comme terrain d’expérimentation. Cela permet de manifester que les données sont la formalisation d’un modèle scientifique et d’hypothèses sous-jacentes. Cette « vérité négociée » offre, comme toutes les analyses et visualisations ultérieures, une « perspective » sur les données et sur la réalité historique.

Dans une mesure seconde, la réflexion a porté sur la construction d’une adéquation dynamique entre données, outils d’analyse et questions de recherche. Si le principe de cette adéquation est une évidence scientifique, son caractère dynamique est apparu pour la première fois dans les études paléographiques. Dans ce dialogue préalable, tous les acteurs doivent non seulement expliciter leurs actions, mais aussi tenir compte des actions, logiciels et développements des autres acteurs dans la formulation de leur recherche ou dans l’interprétation des données. Le dialogue créatif pour établir l’adéquation entre questions, outils et données a été expérimenté pour des questions nouvelles formulées durant le séminaire, pour mieux définir les concepts, les observations à mener, les moyens à mettre en œuvre et, indépendamment des résultats d’analyse, prédire leur portée.

Autant dans les discussions générales que durant les expérimentations, on a pu mettre en évidence les défis posés par la définition de l’échelle d’observation et d’analyse, par la mise en résonance systématique des approches qualitative et quantitative, et par l’automatisation des processus. En particulier, l’on peut rappeler ici que, non seulement, des résultats flous sont aussi importants pour l’historien que des regroupements très distincts, mais surtout que, face à des données floues, l’expert humain peut mieux que la machine effectuer un retour sur les résultats préliminaires, unir les perspectives quantitatives et qualitatives pour assurer une amélioration du modèle et la création d’une « vérité négociée ».

 

Expérimentations et questions

Ce séminaire a été l’occasion de réaliser des expériences in vivo sur les méthodes de la recherche et du dialogue transdisciplinaire. Pour assurer des échanges fructueux sur ces questions nouvelles de communication et de confiance, les organisateurs ont proposé de travailler directement sur les données brutes issues de précédents programmes de recherche (notamment ANR Graphem 2007-2011 et ANR Oriflamms 2013-2016) et de la compétition internationale ICFHR 2016 Competition on the Classification of Medieval Handwritings in Latin Script.

Celle-ci proposait un corpus d’apprentissage de 2000 images réparties en douze classes, reprenant la nomenclature d’A. Derolez pour les écritures gothiques[3]. Deux tâches différentes de classification ont été réalisées sur des ensembles comprenant respectivement 1000 et 2000 images. Les classifications effectuées par les machines obtiennent des résultats satisfaisants, avec 83 % de bonnes réponses, aussi bien à partir d’une analyse locale qu’avec des réseaux neuronaux profonds[4]. L’analyse de ces données et de matrices dites « de confusion » a permis aux participants de surmonter la question de la classification. En formulant l’incompatibilité de la classification proposée par A. Derolez avec les dénominations de l’école florentine, mais en reconnaissant la possibilité d’explorer l’histoire des écritures à partir de chacune des classifications, la discussion a finalement abouti à un consensus méthodologique (plutôt que théorique) proposant une approche heuristique et expérimentale à ces problèmes de classification. En effet, il est apparu que, malgré un apprentissage neutre en termes historiques, le regroupement des écritures en « familles historiques » se faisait très nettement : les analyses en composantes principales des taux d’appartenance de chaque échantillon à chacune des douze classes rassemblent le complexe pré-carolin et carolin, puis l’ensemble Praegothica, Textualis, Southern Textualis, Semitextualis, puis les écritures Cursiva, Semihybrida, Hybrida, et enfin les écritures humanistiques et humanistiques cursives. D’un côté, il faudra tester l’effet de la suppression des classes les moins clairement définies, et en observer l’effet pour proposer de nouvelles interprétations. De l’autre, plutôt que de contester les principes classificatoires des différents acteurs, il a été décidé de tester les différents modèles pour observer leurs taux de recoupement et les divergences irréductibles, pour identifier aussi ceux qui se laissent reproduire le plus aisément par les ordinateurs. Dans tous les cas, il faudra identifier les critères qui fondent les classifications, comme nous avons commencé à le faire avec les réseaux de neurones mis en œuvre par Mike Kestemont et les caractéristiques locales analysées par Vincent Christlein. Cette réflexion sur les critères classificatoires, et un détour par la typographie introduit par Marc Smith, a permis de formaliser la notion de « caractéristique de diagnostic », utile aussi bien pour l’analyse paléographique que pour l’analyse par ordinateur.

Directement liées à ces résultats, deux questions sont apparues au premier plan : celles de la mise en page et de la formalité. Par contraste avec la question de la classification typologique, qui peut être considérée comme une étude du comportement local des écritures, ces questions de mise en page et de formalité peuvent être qualifiées de globales : visuellement elles ne requièrent pas une inspection aussi détaillée, et une vue d’ensemble d’une page est souvent plus informative qu’une analyse rapprochée. La mise en page pourrait être, par exemple, le critère distinctif des productions humanistiques qui sont rassemblées par l’analyse par ordinateur malgré leur dissemblance morphologique. Des outils existent et ont pu être montrés au cours du séminaire. Toutefois, comme expliqué ci-dessus, leur application impose de mieux définir les éléments qui seront soumis à l’analyse et d’en vérifier l’applicabilité au sein du corpus de données utilisé pour l’expérimentation.

La formalité, quant à elle, est un élément déterminant de la classification d’A. Derolez, mais n’a pas été prise en compte dans la compétition ICHFR. Durant le séminaire, des expérimentations ont été faites pour en mesurer l’importance. Outre l’absence de formalisation des critères de distinction, il est vite apparu que le corpus de test ne permet d’aborder cette question que d’une façon biaisée, puisque tous les niveaux d’exécution ne sont pas également représentés pour toutes les classes d’écritures. Une avancée plus importante est apparue : devant les difficultés qu’il y a à définir le concept, un autre concept s’est fait jour, celui de « rythme », peut-être susceptible d’être étudié, entre autres, via la transformation de Fourier ou les mesures fractales. Les premières expérimentations montrent à la fois la facilité déconcertante avec laquelle ces approches mathématiques offrent des informations sur l’écriture (mesure des différents angles de l’écriture ou des espaces entre les jambages) et la grande difficulté à déterminer automatiquement des valeurs de variables pertinentes pour effectuer ces mêmes analyses, non plus sur quelques images, mais sur un grand nombre d’images, fussent-elles celles de pages issues d’un même manuscrit.

Le séminaire des Treilles a également permis aux participants d’expérimenter des approches volontairement peu formelles. D’abord du point de vue du format du séminaire, les quelques présentations traditionnelles de type académique qui ont eu lieu ont toutes émergé naturellement des forums de discussion, contribuant ainsi aux échanges, plutôt que de présenter des résultats pour inspection par la communauté scientifique présente.  L’expérimentation s’est aussi faite via un séminaire situé : une déambulation thématique (un après-midi), qui définissait une tâche précise avec des contraintes, demandait aux participants de l’accomplir par groupes et de rapporter leurs résultats. Les expérimentations enfin ont eu lieu en périphérie des plages de travail dédiées : les participants se sont naturellement regroupés autour d’ordinateurs pour essayer des techniques, explorer des méthodes informatiques, discuter des différentes terminologies.

La Fondation des Treilles a donc permis une réunion en conclave et un séminaire de travail pour passer d’un  dialogue technique, scientifique et interdisciplinaire à une réelle recherche commune. Elle a ainsi contribué de façon nouvelle et originale à assurer une coopération effective, pour passer de l’étude des conditions nécessaires à une collaboration fructueuse à un travail au bénéfice de la connaissance théorique et appliquée, des savoirs épistémologiques et des communautés (humaines) scientifiques.

[1]          D. Muzerelle et M. Gurrado, Éd., Analyse d’image et paléographie systématique : travaux du programme « Graphem » : communications présentées au colloque international « Paléographie fondamentale, paléographie expérimentale : l’écriture entre histoire et science » (Institut de recherche et d’histoire des textes (CNRS), Paris, 14-15 avril 2011). Paris: Association Gazette du livre médiéval, 2011.

[2]          D. Stutzmann et S. Tarte, « Digital Palaeography: New Machines and Old Texts : Executive Summary », Dagstuhl Reports, vol. 4, no 7, p. 112‑134 (112‑114, 132), 2014.

[3]          A. Derolez, The Palaeography of Gothic Manuscript Books from the Twelfth to the Early Sixteenth Century. Cambridge: Cambridge University Press, 2003.

[4]          F. Cloppet, V. Eglin, V. C. Kieu, D. Stutzmann, et N. Vincent, « ICFHR2016 Competition on the Classification of Medieval Handwritings in Latin Script », Proceedings of International Conference on Frontiers in Handwriting Recognition, p. 590‑595, 2016.

Vincent Christlein Arianna Ciula Véronique Eglin Nicoletta Giovè Marchioli Marlène Hélias Baron Mike Kestemont Marilena Maniaci Denis Muzerelle Torsten Schassan Mathias Seuret Marc Smith Daniel Stoekl Ben Ezra Peter Stokes Dominique Stutzmann Ségolène Tarte Enrique Vidal Nicole Vincent Georg Vogeler Paléographie numérique - Digital Palaeography - Fondation des Treilles
Ce contenu a été publié dans Comptes rendus, avec comme mot(s)-clé(s) , , . Vous pouvez le mettre en favoris avec ce permalien.

Les commentaires sont fermés.