1. Pourquoi encoder du texte : la limite des traitements de texte #
- transcrire : définition
- quels usages dans la vraie vie ?
- la limite des outils classiques
1. Pourquoi encoder du texte : la limite des traitements de texte #
Transcrire : définition #
Reproduire très exactement, par l’écriture, ce qui a déjà été écrit.
CNRTL
1. Pourquoi encoder du texte : la limite des traitements de texte #
Quels usages dans la vraie vie ? #
1. Pourquoi encoder du texte : la limite des traitements de texte #
La limite des outils classiques #
- traitements de texte : centrés sur la présentation
- questions d’interopérabilité et de pérennité
- quel niveau d’expressivité ?
2. Petite histoire du balisage #
- pourquoi baliser ? La quête de la vérité
- de SGML à Cooklang
- différents niveaux de complexité et de puissance
2. Petite histoire du balisage #
Pourquoi baliser ? La quête de la vérité #
- besoin : il faut un moyen non ambiguë pour transcrire du texte
- constat : les traitements de texte ne sont pas la bonne solution
- solution : entourer le texte pour spécifier ses propriétés
<livre>
<chapitre><titre>Un texte important</titre>
<corps>Le texte en question <emphase>ici</emphase>
2. Petite histoire du balisage #
De SGML à Cooklang #
- SGML : langage de description à balises, premier standard à grande échelle
- HTML : version simplifiée permettant d’exprimer des documents relativement simples
- XML : langage extensible qui nécessite la description d’un schéma
- Markdown : langage de balisage léger simplifiant l’écriture
- Cooklang : langage de balisage léger dédié aux recettes de cuisine
2. Petite histoire du balisage #
Différents niveaux de complexité et de puissance #
Selon la nature du texte à transcrire :
- spécifier quelques caractéristiques d’un texte (Markdown)
- utiliser de nombreuses balises pour traduire la richesse d’un texte (HTML)
- créer un ensemble de balises propres à un domaine spécifique (XML et XML-TEI)
3. TEI : ses origines, son fonctionnement, sa communauté #
TEI est un effort international pour unifier les pratiques d’encodage de textes dans le domaine académique :
- un ensemble de recommandations (les Guidelines)
- un cadre de travail et un vocabulaire XML pour produire des modèles de textes
- une communauté d’utilisateurs·trices
3. TEI : ses origines, son fonctionnement, sa communauté #
Un besoin de la communauté scientifique #
- la TEI est créée avant XML : dès les débuts de SGML
- à la suite des débuts des Humanities Computing : le besoin d’encoder
- c’est un travail collectif
3. TEI : ses origines, son fonctionnement, sa communauté #
Un schéma XML #
- une liste de balises pour transcrire tous types de texte
- des cas d’utilisation très divers pour répondre à des besoins variés
- une documentation qui accompagne ce schéma
- un projet open source/libre : pas de restriction d’usage ou de modification
3. TEI : ses origines, son fonctionnement, sa communauté #
Une communauté très active #
- schéma XML en constante évolution (voir le dépôt GitHub)
- listes de discussion francophone et anglophone
- nombreux projets utilisant la TEI
- communications fréquentes lors de colloques/conférences
4. TEI et Humanités numériques #
- pourquoi est-ce un projet emblématique des DH ?
- quelques exemples ici et là
- ce qu’il reste à faire
5. Récapitulatif #
- la transcription : une opération complexe
- la TEI est une réponse efficiente, extensible et collective
- le balisage est ancré dans les DH
LLM1300 Introduction aux humanités numériques
CC BY-NC-SA Antoine Fauchié — antoine.fauchie@umontreal.ca