Séance 10 - Les données 2/Informer

Version imprimable

Support de présentation (ouvrir en grand) :

Utilisez les flèches ← et → pour naviguer entre les diapositives.

Sommaire

Plan #

  1. Étude de cas : Lesbian and Gay Liberation in Canada
  2. Récolter, structurer et lier des données
  3. Les enjeux de l’archivage (rendre les données vivantes)
  4. Les DH en action

Avant de débuter ce cours, arrêtons-nous sur le texte « Expérimenter les humanités numériques : Des outils individuels aux projets collectifs ». Les auteurs tentent de nous convaincre de plusieurs éléments :

  • les récits d’expérience en humanités numériques manquent cruellement, alors que la théorie est elle surreprésentée ;
  • ces exemples pourraient faciliter l’adoption des pratiques liées aux humanités numériques, parce que c’est en montrant comment tout cela fonctionne que d’autres pourront s’accaparer ces nouvelles techniques ;
  • il est nécessaire de décrire de façon très lisible comment les projets ont été pensés, menés, développés voir ratés.

Tout considéré, les exemples ici réunis offrent, par facettes, une définition des humanités numériques qui nous paraît à la fois simple et convaincante : pour nous, ce sont des outils numériques appliqués aux sciences humaines et sociales. Par leur ancrage dans la réalité de projets aboutis ou non, toujours imparfaits mais bel et bien menés, ces textes réfutent efficacement l’idée que le numérique révolutionnerait, de fond en comble, la pratique scientifique. Le numérique ne permet nullement d’inventer une science nouvelle, fondée sur des structures et des concepts purement informatiques — et désespérément inaccessibles aux non-spécialistes.
Expérimenter les humanités numériques : Des outils individuels aux projets collectifs

1. Étude de cas : Lesbian and Gay Liberation in Canada #

  • origines et objectifs du projet
  • les étapes de la récolte/conversion à la mise en relation
  • un projet d’archivage ?

Ou s’agit-il peut-être même d’un livre numérique ?

1. Étude de cas : Lesbian and Gay Liberation in Canada #

1.1. Origines et objectifs du projet #

Présenter le mouvement de libération des gais et lesbiennes au Canada.

Mettre en relation des données pour permettre de découvrir toute la richesse et la complexité de ce mouvement.

C’est ce qu’explique Constance Crompton : il s’agit de proposer un nouveau regard sur un mouvement social. Cela est possible en faisant le lien entre des événements très divers, qui sont déjà disponibles sous forme de données dans des archives.

Within the digital humanities, my research interest is in considering what the digital medium can let us know about a humanities’ content.
Constance Crompton (source)

LGLC propose des graphes pour naviguer d’événements en personnes, de lieux en événements, et de citations en lieux.

1. Étude de cas : Lesbian and Gay Liberation in Canada #

1.2. Les étapes de la récolte/conversion à la mise en relation #

  • sources : deux ouvrages, des données textuelles (non structurées)
  • baliser chaque information : événement, personnes, etc.
  • construire un modèle de données
  • bâtir une infrastructure et une application de consultation

Cette source XML permet de comprendre le travail de conversion/balisage qui a dû être effectué. Chaque personne, chaque lieu, chaque événement, chaque organisation, chaque date, etc. sont balisés. Une fois que ces données balisés il est possible de créer une application qui va les parser pour les afficher et les lier.

1. Étude de cas : Lesbian and Gay Liberation in Canada #

1.3. Un projet d’archivage ? #

  • réunir des données
  • les lier entre elles
  • donner des outils pour les interroger

2. Récolter, structurer et lier des données #

  • d’où viennent les données ?
  • rendre les données utilisables
  • lier les données

Ce projet permet de comprendre l’étendu d’un travail de mise en relation et de valorisation.

2. Récolter, structurer et lier des données #

2.1. D’où viennent les données ? #

  • un texte non structuré n’est pas utilisable
  • le travail de balisage est essentiel
  • construire une base de données requiert des choix

2. Récolter, structurer et lier des données #

2.2. Rendre les données utilisables #

  • transformer du flux en éléments identifiables
  • modéliser la structure des données
  • créer un modèle interrogeable

La question de la modélisation est centrale dans cette démarche : quels sont les différents types de …

2. Récolter, structurer et lier des données #

2.3. Lier les données #

  • modélisation : un événement a une date, une personne participe à un événement, une publication est écrite par une personne
  • XML-TEI : implémenter un modèle
  • interroger les données pour constituer une base de données

Un exemple de graphe très riche dans le projet LGLC : la ville de Toronto.

3. Les enjeux de l’archivage #

  • description : les données sur les données
  • sauvegarde : conserver les données et pouvoir les lire
  • réutilisation : documenter la modélisation

La description des données est une opération déterminante : c’est elle qui va permettre le classement ainsi que la mise en place d’index pour la recherche ou d’autres implémentations techniques pour l’affichage des données. Il y a beaucoup de niveaux de description différents, allant du plus simple (quelques données comme le titre ou l’auteur) au plus complexe (avec des précisions sur les dates de création et de modification par exemple). Cela peut se traduire par un nombre de champs important : beaucoup d’items pour décrire la données. Mais aussi par une arborescence d’éléments : des métadonnées sont imbriquées dans d’autres métadonnées.

La sauvegarde est complexe, il ne s’agit pas seulement de s’assurer de la conservation d’un fichier (chaque byte est encore lisible), mais aussi et surtout de pouvoir le lire avec des logiciels qui évoluent eux aussi. Pour cela il est également nécessaire de conserver les logiciels de lecture et de modification liés aux types de formats conservés. Il est parfois incontournable de faire de l’émulation : recréer les conditions de lisibilité du fichier.

Il ne suffit pas de décrire les données ou de s’assurer de la lisibilité des fichiers, une archive doit rester vivante et donc il faut prévoir que ces données seront réutilisées.

Avant de passer à la dernière partie du cours, il est nécessaire de discuter ensemble du texte « Hacktivism and the Humanities: Programming Protest in the Era of the Digital University » de Elizabeth Losh :

  • le projet de l’article : « In thinking about the relationship between hacktivism and the humanities, this essay attempts to describe a range of related protest movements during a time in which there is a significant cohort of professors calling for hacking the academy that includes department chairs, heads of national centers, and those in the leadership of professional associations who are demanding fundamental changes in fair use, peer review, and tenure guidelines. »
  • l’objectif de l’autrice est de mieux comprendre l’usage de la technologie à des fins politiques, les humanités numériques étant dans une position particulière : articulation d’enjeux théoriques et de pratiques réelles ;
  • il est nécessaire de conserver un regard critique sur les objets produits et leur utilisation (critical code studies) ;
  • s’agit-il seulement de stratégies de visibilité ?
  • comment élargir les initiatives et ne pas limiter les actions (et les réflexions) au monde universitaire ?

4. Les DH en action #

  • les humanités dans la vraie vie
  • militantisme et objectivité scientifique
  • les productions en DH : que devient le code ?

Ce qu’il faut prendre en considération, c’est à quel point les humanités ont un impact dans la société, le monde. Même des recherches qui peuvent sembler très théoriques, ont en fait une influence sur des applications concrètes. Expliquer comment des recherches théoriques ont un impact sur la société contemporaine.

Résumé des 10 séances #

  • Séance 01 - Origines des humanités numériques/Classer
  • Séance 02 - Informatique et Internet/Écrire
  • Séance 03 - Le Web 1/Chercher
  • Séance 04 - Le Web 2/Numériser
  • Séance 05 - Transcrire le texte/Encoder
  • Séance 06 - L’édition numérique 1/Lire
  • Séance 07 - Les données 1/Visualiser
  • Séance 08 - La publication académique/Structurer
  • Séance 09 - L’édition numérique 2/Publier
  • Séance 10 - Les données 2/Informer

Séance 01 - Origines des humanités numériques/Classer #

  • rencontre des humanités et de l’informatique
  • automatiser le classement/l’indexation
  • atteindre des niveaux impossibles sans le numérique
  • l’Index Thomisticus de Roberto Busa : un des premiers projets en DH

Séance 02 - Informatique et Internet/Écrire #

  • Internet : le réseau de réseaux (protocoles et infrastructures)
  • le Web : un service d’Internet
  • informatique personnelle : accès à des machines à tout faire calculer
  • Wikipédia : le livre collectif réinscriptible

Extrait du documentaire World Brain de Stéphane Degoutin et Gwenola Wagon.

Voir la vidéo en ligne : https://vimeo.com/381166153#t=80s.

Séance 03 - Le Web 1/Chercher #

  • le Web : des contenus liés de façon décentralisée
  • les moteurs de recherche : des algorithmes pour classer
  • des moteurs de recherche spécialisés : adapter les outils
  • le Web est-il devenu trop compliqué ?

«  Hypertext  »: Human-readable information linked together in an unconstrained way.
Tim Berners-Lee, «  Information Management: A Proposal  »

Séance 04 - Le Web 2/Numériser #

  • Internet, le Web et l’hypertexte : un nouvel environnement pour le texte
  • la description des documents : pour les classer et les trouver
  • la numérisation pour conserver valoriser
  • numérisation : description, photographie, OCR, mise en ligne

Séance 05 - Transcrire le texte/Encoder #

  • transcrire : donner une représentation du texte
  • traiter du texte : la sémantique avant tout
  • baliser : transcrire sans compromettre, voir enrichir
  • XML TEI : des modèles de données, une implémentation technique de la transcription

Séance 06 - L’édition numérique 1/Lire #

  • l’édition : un processus qui opère sur des contenus, en 3 fonctions) : choix et production, légitimation, et diffusion
  • utiliser le numérique : ne pas reproduire l’analogique avec de nouveaux moyens
  • livre numérique : fichier affiché sur un écran 🤔
  • des livres numériques : variété de formes

L’édition peut être comprise comme un processus de médiation qui permet à un contenu d’exister et d’être accessible. On peut distinguer trois étapes de ce processus qui correspondent à trois fonctions différentes de l’édition : une fonction de choix et de production, une fonction de légitimation et une fonction de diffusion.
(Epron et Vitali-Rosati 2018, p. 6)

Séance 07 - Les données 1/Visualiser #

  • les données : des objets numériques plus ou moins complexes
  • les données : des choses manipulables et calculables
  • visualiser des données : nouvelle appréhension du texte

Distinction entre plusieurs types de données, exemple de la notion de granularité.

We can do so much more now than find words in a string.
Geoffrey Rockwell, What is Text Analysis, Really?

Séance 08 - La publication académique/Structurer #

  • publication académique : des formats de publication et des contraintes d’édition spécifiques
  • processus de validation : fermés, ouverts, aveugles
  • une circulation de l’information complexe
  • WYSIWYG vs WYSIWYM
  • Stylo : un éditeur de texte conçu pour l’édition scientifique

Séance 09 - L’édition numérique 2/Publier #

  • éditer ≠ publier
  • la disparition des étapes intermédiaires ?
  • chaîne de publication : ensemble des méthodes, des outils et des processus qui permette de concevoir, fabriquer, produire et diffuser un livre ou plus largement une publication
  • des approches originales inspirées du Web

Within the digital humanities, my research interest is in considering what the digital medium can let us know about a humanities’ content.
Constance Crompton

Séance 10 - Les données 2/Informer #

  • modéliser les données
  • archiver : conserver les données vivantes
  • éthique et DH : la rigueur scientifique au service de la société