Séance 05 - Transcrire le texte/Encoder

Version imprimable

Support de présentation (ouvrir en grand) :

Utilisez les flèches ← et → pour naviguer entre les diapositives.

Sommaire

Plan #

  1. Pourquoi encoder du texte : la limite des traitements de texte
  2. Petite histoire du balisage
  3. TEI : ses origines, son fonctionnement, sa communauté
  4. TEI et Humanité numériques
  5. Récapitulatif

1. Pourquoi encoder du texte : la limite des traitements de texte #

  • transcrire : définition
  • quels usages dans la vraie vie ?
  • la limite des outils classiques

1. Pourquoi encoder du texte : la limite des traitements de texte #

Transcrire : définition #

Reproduire très exactement, par l’écriture, ce qui a déjà été écrit.
CNRTL

Plusieurs points ici sont essentiels dans ce qui nous intéresse : redonner tous le sens d’un texte, restez fidèle au texte original, passer d’une écriture à une autre écriture. Mais qu’est-ce qu’une autre écriture ? Il s’agit d’une autre façon d’exprimer le sens, souvent en passant d’une forme à une autre, dans l’objectif de pouvoir étudier, analyser et manipuler le texte.

Jerome McGann note, dans son texte, qu’il y a plusieurs limites dans ce passage d’un texte manuscrit à la traduction en un texte explorable et analysable. Le travail de transcription est forcément une opération qui relève de choix, de décisions, qui souvent prennent en compte le contexte et l’objectif de cette entreprise.

1. Pourquoi encoder du texte : la limite des traitements de texte #

Quels usages dans la vraie vie ? #

La question ici est de savoir à quoi sert de transcrire un texte. Nous l’avons vu lors de la séance précédente : l’idée est de pouvoir faciliter le traitement de textes qui ont un intérêt dans certains domaines, et dans notre cas surtout en littérature. Nous revenons alors aux premiers pas des humanités numériques et le projet de Roberto Busa : comment identifier toutes les occurrences de certains mots ? Comment les repérer dans des textes longs ? Comment en faire une liste ou un index sans devoir lire le texte à chaque recherche ?

On parle d’édition critique au sens où il s’agit de produire une reproduction contrôlée d’un texte dont sont procurés les états, versions, variantes et leçons. En d’autres termes il s’agit de traduire les états d’un texte, que ce soit le texte que l’on peut lire ou des éléments qui l’entourent, ainsi que plusieurs versions/éditions d’un même texte.

De ce point de vue, l’édition critique constitue, selon la définition du manuel de l’École nationale des chartes sur l’édition des textes médiévaux, un essai de reconstitution d’un texte, pour lequel l’éditeur pèse chacun des mots du texte en se servant de tous les moyens de jugement dont il dispose.

L’enjeu ici est donc de rendre compte le plus fidèlement possible de la source : La tâche principale de l’éditeur est de produire un texte fiable et consistant, avec des partis-pris éditoriaux explicites et appropriés.

1. Pourquoi encoder du texte : la limite des traitements de texte #

La limite des outils classiques #

  • traitements de texte : centrés sur la présentation
  • questions d’interopérabilité et de pérennité
  • quel niveau d’expressivité ?

Le premier réflexe serait de vouloir écrire le texte dans un outil que nous utilisons tous les jours : le traitement de texte. Après tout, c’est un outil d’écriture qui permet de retranscrire un texte afin de pouvoir donner un nouveau rendu graphique ou de l’interroger.

  • les traitements de texte sont souvent centrés sur la présentation. Les formats de sorties sont décevants pour une utilisation autre que l’imprimé, sans parler de la maintenance ;
  • dans bien des cas, l’expressivité d’un logiciel de traitement de texte s’avère insuffisante pour documenter certains aspects de la source, en particulier lorsqu’il s’agit de manuscrits ;
  • dans le contexte d’un travail collectif, il est souvent utile de disposer d’une méthode de travail qui assure un contrôle de la consistance de l’édition : un traitement de texte ne permet pas de mettre en place une telle méthode ;
  • dans un objectif de pérennisation il est nécessaire d’envisager le statut des formats informatiques (ouverts vs propriétaires), les risques d’obsolescence technique, les problèmes de maintenance.

Nous allons voir que le balisage est une façon de transcrire un texte sans ambiguïté et avec le plus de richesse sémantique possible.

2. Petite histoire du balisage #

  • pourquoi baliser ? La quête de la vérité
  • de SGML à Cooklang
  • différents niveaux de complexité et de puissance

Nous allons explorer ici les enjeux du balisage, ou comment trouver le moyen le plus adéquat pour effectuer une transcription textuelle. Pour cela nous allons essayer de comprendre d’où viennent les langages de balisage et comment ils peuvent nous permettre de résoudre (assez) facilement des problèmes (très) complexes.

2. Petite histoire du balisage #

Pourquoi baliser ? La quête de la vérité #

  • besoin : il faut un moyen non ambiguë pour transcrire du texte
  • constat : les traitements de texte ne sont pas la bonne solution
  • solution : entourer le texte pour spécifier ses propriétés
<livre>
<chapitre><titre>Un texte important</titre>
<corps>Le texte en question <emphase>ici</emphase>

D’où viennent les langages de balisage ? Le balisage est une réponse technique à un problème théorique, mais c’est aussi une réponse qui prend en compte la façon dont fonctionnent les logiciels et programmes informatiques : il faut des instructions claires et sans ambiguïté pour les machines. Plusieurs systèmes de balisage ont précédé SGML.

Le plus connu aujourd’hui est HTML, c’est ce qui permet d’afficher des pages web dans un navigateur, le rôle du langage de balisage HTML est exactement celui que l’on recherche pour retranscrire du texte : identifier des portions de texte en attribuant une information qui elle-même est porteuse de sens. HTML est intéressant pour afficher des informations avec un niveau de structuration ou de sémantique relativement limité, d’autres formats sont plus adaptés pour, par exemple, établir des éditions critiques.

Ce qui a été imaginé avec SGML c’est de baliser le texte selon une nomenclature la plus claire possible.

2. Petite histoire du balisage #

De SGML à Cooklang #

  • SGML : langage de description à balises, premier standard à grande échelle
  • HTML : version simplifiée permettant d’exprimer des documents relativement simples
  • XML : langage extensible qui nécessite la description d’un schéma
  • Markdown : langage de balisage léger simplifiant l’écriture
  • Cooklang : langage de balisage léger dédié aux recettes de cuisine

Les langages de balisage sont nombreux, ils répondent tous à des besoins différents. Il est intéressant de noter la progression de ces balisages :

  • vers une standardisation avec SGML ;
  • vers une simplification dans un cas spécifique avec HTML ;
  • vers une extensibilité avec XML afin de disposer de quelques règles pour créer de nouveaux balisages parfois très complexes ;
  • vers une extrême simplification avec Markdown afin de disposer d’un langage compréhensible par des humains ;
  • vers une adaptation avec (par exemple) Cooklang.

Ce qu’il faut surtout retenir ici c’est la profusion des solutions existantes quand il s’agit d’imaginer un moyen de qualifier du texte.

2. Petite histoire du balisage #

Différents niveaux de complexité et de puissance #

Selon la nature du texte à transcrire :

  • spécifier quelques caractéristiques d’un texte (Markdown)
  • utiliser de nombreuses balises pour traduire la richesse d’un texte (HTML)
  • créer un ensemble de balises propres à un domaine spécifique (XML et XML-TEI)

Pour donner un ordre d’idée : utiliser Markdown nécessite quelques heures de pratique, maîtriser HTML demande quelques jours de formation, connaître XML-TEI requiert plusieurs semaines, créer son propre schéma XML nécessite plusieurs mois ou années.

3. TEI : ses origines, son fonctionnement, sa communauté #

TEI est un effort international pour unifier les pratiques d’encodage de textes dans le domaine académique :

  • un ensemble de recommandations (les Guidelines)
  • un cadre de travail et un vocabulaire XML pour produire des modèles de textes
  • une communauté d’utilisateurs·trices

La TEI, pour Text Encoding Initiative, est un projet passionnant qui vise à faciliter la réalisation d’éditions critiques. Il s’agit de la recherche d’un modèle commun pour encoder et partager des textes.

Concrètement c’est un schéma XML : une liste de balises prêtes à être utilisées dans le cas de projets littéraires. La puissance de TEI s’accompagne d’une certaine complexité : il faut apprendre à utiliser TEI (méthodes, techniques, langage, bonnes pratiques) afin de pouvoir bénéficier de toutes ses propriétés.

3. TEI : ses origines, son fonctionnement, sa communauté #

Un besoin de la communauté scientifique #

  • la TEI est créée avant XML : dès les débuts de SGML
  • à la suite des débuts des Humanities Computing : le besoin d’encoder
  • c’est un travail collectif

Quelques dates pour comprendre comment la TEI s’est constituée :

  • novembre 1987 : première réunion au Vassar College à Poughkeepsie
  • création de la Text Encoding Initiative
  • juin 1990 : premier brouillon (P1)
  • mai 1994 : première publication des Guidelines (P3)

Par ailleurs la TEI est un projet internationalement reconnu :

  • une large reconnaissance internationale ;
  • conservation à long terme du patrimoine culturel ;
  • éviter la bibliothèque de Babel numérique ;
  • projet phare des Humanités numériques : usage de l’informatique pour réaliser des avancés scientifiques ;
  • Prix Antonio Zampolli à DH2017.

3. TEI : ses origines, son fonctionnement, sa communauté #

Un schéma XML #

  • une liste de balises pour transcrire tous types de texte
  • des cas d’utilisation très divers pour répondre à des besoins variés
  • une documentation qui accompagne ce schéma
  • un projet open source/libre : pas de restriction d’usage ou de modification

Les principes directeurs de la TEI sont les suivants :

  • faciliter l’échange et l’intégration des travaux des chercheurs : via une interopérabilité ;
  • concevoir et maintenir un modèle international générique, applicable à tous les textes, écrits dans toutes les langues, datant de toutes les périodes ;
  • guider les utilisateurs non techniciens (documenter le modèle) : pour permettre à tous et toutes de pouvoir s’emparer de cette façon d’encoder le texte ;
  • aider les spécialistes et les techniciens en leur proposant un modèle souple et adaptable : c’est là la puissance de la TEI basée sur les principes de XML.

Exemple d’usage : la TEI a été conçue comme un modèle générique et extensible. Elle laisse entièrement libre le chercheur de ses choix de modélisation. La TEI fournit ainsi, à l’aide d’un vocabulaire et d’une infrastructure technique, un cadre de travail pour la modélisation des textes. Dans la limite de leur expressivité, de tels modèles peuvent être employés à telles ou telles fins. La volonté de la TEI de couvrir l’ensemble des besoins a pour pendant négatif la nécessité de personnaliser son schéma. Et l’utilisation de la TEI suppose l’apprentissage de son vocabulaire. Voici les étapes d’un workflow basé sur la TEI :

  • Modélisation des documents
  • Spécification d’un sous ensemble de la TEI (fichier ODD)
  • Génération d’un schéma et d’une documentation
  • Encodage des documents
  • Révision du modèle (processus itératif)

3. TEI : ses origines, son fonctionnement, sa communauté #

Une communauté très active #

  • schéma XML en constante évolution (voir le dépôt GitHub)
  • listes de discussion francophone et anglophone
  • nombreux projets utilisant la TEI
  • communications fréquentes lors de colloques/conférences

4. TEI et Humanités numériques #

  • pourquoi est-ce un projet emblématique des DH ?
  • quelques exemples ici et là
  • ce qu’il reste à faire

5. Récapitulatif #

  • la transcription : une opération complexe
  • la TEI est une réponse efficiente, extensible et collective
  • le balisage est ancré dans les DH