Plan #

  1. Pourquoi encoder du texte : la limite des traitements de texte
  2. Petite histoire du balisage
  3. TEI : ses origines, son fonctionnement, sa communauté
  4. TEI et Humanité numériques
  5. Récapitulatif

1. Pourquoi encoder du texte : la limite des traitements de texte #

  • transcrire : définition
  • quels usages dans la vraie vie ?
  • la limite des outils classiques

1. Pourquoi encoder du texte : la limite des traitements de texte #

Transcrire : définition #

Reproduire très exactement, par l’écriture, ce qui a déjà été écrit.
CNRTL

1. Pourquoi encoder du texte : la limite des traitements de texte #

Quels usages dans la vraie vie ? #

1. Pourquoi encoder du texte : la limite des traitements de texte #

La limite des outils classiques #

  • traitements de texte : centrés sur la présentation
  • questions d’interopérabilité et de pérennité
  • quel niveau d’expressivité ?

2. Petite histoire du balisage #

  • pourquoi baliser ? La quête de la vérité
  • de SGML à Cooklang
  • différents niveaux de complexité et de puissance

2. Petite histoire du balisage #

Pourquoi baliser ? La quête de la vérité #

  • besoin : il faut un moyen non ambiguë pour transcrire du texte
  • constat : les traitements de texte ne sont pas la bonne solution
  • solution : entourer le texte pour spécifier ses propriétés
<livre>
<chapitre><titre>Un texte important</titre>
<corps>Le texte en question <emphase>ici</emphase>

2. Petite histoire du balisage #

De SGML à Cooklang #

  • SGML : langage de description à balises, premier standard à grande échelle
  • HTML : version simplifiée permettant d’exprimer des documents relativement simples
  • XML : langage extensible qui nécessite la description d’un schéma
  • Markdown : langage de balisage léger simplifiant l’écriture
  • Cooklang : langage de balisage léger dédié aux recettes de cuisine

2. Petite histoire du balisage #

Différents niveaux de complexité et de puissance #

Selon la nature du texte à transcrire :

  • spécifier quelques caractéristiques d’un texte (Markdown)
  • utiliser de nombreuses balises pour traduire la richesse d’un texte (HTML)
  • créer un ensemble de balises propres à un domaine spécifique (XML et XML-TEI)

3. TEI : ses origines, son fonctionnement, sa communauté #

TEI est un effort international pour unifier les pratiques d’encodage de textes dans le domaine académique :

  • un ensemble de recommandations (les Guidelines)
  • un cadre de travail et un vocabulaire XML pour produire des modèles de textes
  • une communauté d’utilisateurs·trices

3. TEI : ses origines, son fonctionnement, sa communauté #

Un besoin de la communauté scientifique #

  • la TEI est créée avant XML : dès les débuts de SGML
  • à la suite des débuts des Humanities Computing : le besoin d’encoder
  • c’est un travail collectif

3. TEI : ses origines, son fonctionnement, sa communauté #

Un schéma XML #

  • une liste de balises pour transcrire tous types de texte
  • des cas d’utilisation très divers pour répondre à des besoins variés
  • une documentation qui accompagne ce schéma
  • un projet open source/libre : pas de restriction d’usage ou de modification

3. TEI : ses origines, son fonctionnement, sa communauté #

Une communauté très active #

  • schéma XML en constante évolution (voir le dépôt GitHub)
  • listes de discussion francophone et anglophone
  • nombreux projets utilisant la TEI
  • communications fréquentes lors de colloques/conférences

4. TEI et Humanités numériques #

  • pourquoi est-ce un projet emblématique des DH ?
  • quelques exemples ici et là
  • ce qu’il reste à faire

5. Récapitulatif #

  • la transcription : une opération complexe
  • la TEI est une réponse efficiente, extensible et collective
  • le balisage est ancré dans les DH

LLM1300 Introduction aux humanités numériques

CC BY-NC-SA Antoine Fauchié — antoine.fauchie@umontreal.ca