Séance 04 - Le Web 2/Numériser

Version imprimable

Support de présentation (ouvrir en grand) :

Utilisez les flèches ← et → pour naviguer entre les diapositives.

Sommaire

Plan #

  1. Rappels sur le Web : documents, hypertexte, espace de lecture
  2. Préambule : qu’est-ce qu’un texte ?
  3. Référencer et signaler : catalogues et bases de données
  4. Donner accès : les versions du document
  5. Valoriser : penser des parcours

1. Rappels sur le Web : documents, hypertexte, espace de lecture #

  • documents : bibliothèques (in)finies
  • hypertexte : lier des documents
  • espace de lecture : reconfiguration en fonction des dispositifs

L’invention initiale du Web est un ensemble de documents liés, typiquement une bibliothèque. Cette ou ces bibliothèques sont finies dans le sens où la connaissance humaine est elle-même finie. En revanche le réseau de bibliothèques peut être infini : les liens et les connexions possibles sont exponentiels.

C’est grâce à l’hypertexte que le Web est envisageable, le protocole HTTP et le standard HTML sont nécessaires mais presque secondaires.

Schéma de l’hypertexte pensé par Ted Nelson en 1965

L’hypertexte nous semble évident aujourd’hui, mais il faut se remettre dans le contexte.

Enfin la reconfiguration des interfaces de lecture en fonction des dispositifs de lecture est un point d’articulation entre un Web utilisable sur des écrans de taille définie (le fameux 800 × 600 de la fin des années 1990) et des dispositifs très variés (du grand écran au smartphone).

2. Préambule : qu’est-ce qu’un texte ? #

  • un texte n’est pas du texte au kilomètre
  • importance de la structure et des métadonnées
  • ordered hierarchy of content object

Un texte ne peut pas être résumé à une série de lettres, de mots ou de ponctuation. La structure d’un texte est complexe, et peut être souvent sémantisée :

  • niveaux de titres ;
  • emphases ;
  • listes ;
  • citations ;
  • notes ;
  • etc.

Il est question ici de donner à voir des documents littéraires qui constituent un patrimoine inestimable. Il s’agit plus particulièrement de mettre à disposition des descriptions des documents pour signaler leur existance, mais aussi de permettre un accès à ces documents, que ce soit une simple prise de vue de l’original ou une interprétation textuelle de celui-ci. Enfin, les questions de valorisation sont essentielles : comment est-il possible de chercher dans les centaines ou milliers de notices ? Quelle éditorialisation mettre en place dans ce contexte ? Quels liens faire entre plusieurs documents ? Quelles interfaces de lecture créer et articuler ?

3. Référencer et signaler : catalogues et bases de données #

  • décrire les documents : l’importance des métadonnées
  • classer les notices
  • chercher dans les notices

Les bibliothèques ont été les pionnières en matière d’utilisation de l’informatique, et un formidable terrain d’expérimentations pour les humanités numériques.

La description d’un document, sans parler de sa représentation, est une activité complexe. Choisir les bonnes métadonnées a beaucoup de conséquences sur les modes d’accès aux documents concernés.

Le texte de Thomas Lebarbé et Cécile Meynard #

Le texte de Thomas Lebarbé et Cécile Meynard #

  • qu’est-ce qu’une édition numérique d’un manuscrit ?
  • numériser, convertir et valoriser
  • numériser pour conserver numériser pour convertir pour valoriser
  • pensée la relation entre l’imprimé (voir le manuscrit) et le numérique

4. Donner accès : les versions du document #

  • qu’est-ce que numériser un document ?
  • vous avez dit OCR ?
  • donner accès à la source

5. Valoriser : penser des parcours #

  • proposer des accès différents selon les utilisateurs·trices potentiels·lles
  • créer de nouveaux objets éditoriaux
  • imaginer des liens originaux à l’intérieur d’un corpus

Évaluation de mi-session : exemples de questions #

Pourquoi le projet de Roberto Busa constitue un point de départ des humanités numériques ? #

L’Index Thomisticus de Roberto Busa constitue un point d’achoppement : c’est l’un des premiers projets d’envergure où les humanités ont recours à l’informatique. Dans les années 1950, Roberto Busa entre en contact avec l’entreprise d’informatique IBM, et va ainsi utiliser les potentialités (encore balbutiantes) des ordinateurs pour enregistrer et classer les occurrences de termes dans l’œuvre de Saint-Thomas d’Aquin. C’est grâce à l’informatique qu’il fait des découvertes linguistiques insoupçonnées, ainsi le numérique n’a pas seulement été un accélérateur ou facilitateur, mais il a proposé un nouveau paradigme pour la recherche scientifique en sciences humaines.

Qu’est-ce que permet de faire une structuration fine d’un document ? #

Structurer un document signifie retranscrire ses particularités sémantiques : niveaux de titres, listes ordonnées ou non ordonnées, blocs de contenus comme une citation longue, emphase, note de bas de page, etc. Si un document est suffisamment structuré, alors il est possible d’automatiser certaines actions sur le document en question. Afficher une citation longue avec une typographie ou une couleur spécifiques devient facile, de même qu’extraire toutes les citations d’un même document. La structuration fine d’un document est donc un atout pour réaliser des traitements, des recherches, des visualisations ou d’autres actions sur un document, en l’occurrence un texte.