LLM1300 Introduction aux humanités numériques
Séance 10 - Les données 2/Informer
Comment récolter, réunir, archiver, lier et donner accès à des données ?
Antoine Fauchié — antoine.fauchie@umontreal.ca
Plan #
Étude de cas : Lesbian and Gay Liberation in Canada
Récolter, structurer et lier des données
Les enjeux de l’archivage (rendre les données vivantes)
Les DH en action
Avant de débuter ce cours, arrêtons-nous sur le texte « Expérimenter les humanités numériques : Des outils individuels aux projets collectifs ».
Les auteurs tentent de nous convaincre de plusieurs éléments :
les récits d’expérience en humanités numériques manquent cruellement, alors que la théorie est elle surreprésentée ;
ces exemples pourraient faciliter l’adoption des pratiques liées aux humanités numériques, parce que c’est en montrant comment tout cela fonctionne que d’autres pourront s’accaparer ces nouvelles techniques ;
il est nécessaire de décrire de façon très lisible comment les projets ont été pensés, menés, développés voir ratés.
Tout considéré, les exemples ici réunis offrent, par facettes, une définition des humanités numériques qui nous paraît à la fois simple et convaincante : pour nous, ce sont des outils numériques appliqués aux sciences humaines et sociales. Par leur ancrage dans la réalité de projets aboutis ou non, toujours imparfaits mais bel et bien menés, ces textes réfutent efficacement l’idée que le numérique révolutionnerait, de fond en comble, la pratique scientifique. Le numérique ne permet nullement d’inventer une science nouvelle, fondée sur des structures et des concepts purement informatiques — et désespérément inaccessibles aux non-spécialistes.
Expérimenter les humanités numériques : Des outils individuels aux projets collectifs
1. Étude de cas : Lesbian and Gay Liberation in Canada #
origines et objectifs du projet
les étapes de la récolte/conversion à la mise en relation
un projet d’archivage ?
Ou s’agit-il peut-être même d’un livre numérique ?
1. Étude de cas : Lesbian and Gay Liberation in Canada #
1.1. Origines et objectifs du projet #
Présenter le mouvement de libération des gais et lesbiennes au Canada.
Mettre en relation des données pour permettre de découvrir toute la richesse et la complexité de ce mouvement.
C’est ce qu’explique Constance Crompton : il s’agit de proposer un nouveau regard sur un mouvement social.
Cela est possible en faisant le lien entre des événements très divers, qui sont déjà disponibles sous forme de données dans des archives.
Within the digital humanities, my research interest is in considering what the digital medium can let us know about a humanities’ content.
Constance Crompton (source )
LGLC propose des graphes pour naviguer d’événements en personnes, de lieux en événements, et de citations en lieux.
1. Étude de cas : Lesbian and Gay Liberation in Canada #
1.2. Les étapes de la récolte/conversion à la mise en relation #
sources : deux ouvrages, des données textuelles (non structurées)
baliser chaque information : événement, personnes, etc.
construire un modèle de données
bâtir une infrastructure et une application de consultation
Cette source XML permet de comprendre le travail de conversion/balisage qui a dû être effectué.
Chaque personne, chaque lieu, chaque événement, chaque organisation, chaque date, etc. sont balisés.
Une fois que ces données balisés il est possible de créer une application qui va les parser pour les afficher et les lier.
1. Étude de cas : Lesbian and Gay Liberation in Canada #
1.3. Un projet d’archivage ? #
réunir des données
les lier entre elles
donner des outils pour les interroger
2. Récolter, structurer et lier des données #
d’où viennent les données ?
rendre les données utilisables
lier les données
Ce projet permet de comprendre l’étendu d’un travail de mise en relation et de valorisation.
2. Récolter, structurer et lier des données #
2.1. D’où viennent les données ? #
un texte non structuré n’est pas utilisable
le travail de balisage est essentiel
construire une base de données requiert des choix
2. Récolter, structurer et lier des données #
2.2. Rendre les données utilisables #
transformer du flux en éléments identifiables
modéliser la structure des données
créer un modèle interrogeable
La question de la modélisation est centrale dans cette démarche : quels sont les différents types de …
2. Récolter, structurer et lier des données #
2.3. Lier les données #
modélisation : un événement a une date, une personne participe à un événement, une publication est écrite par une personne
XML-TEI : implémenter un modèle
interroger les données pour constituer une base de données
3. Les enjeux de l’archivage #
description : les données sur les données
sauvegarde : conserver les données et pouvoir les lire
réutilisation : documenter la modélisation
La description des données est une opération déterminante : c’est elle qui va permettre le classement ainsi que la mise en place d’index pour la recherche ou d’autres implémentations techniques pour l’affichage des données.
Il y a beaucoup de niveaux de description différents, allant du plus simple (quelques données comme le titre ou l’auteur) au plus complexe (avec des précisions sur les dates de création et de modification par exemple).
Cela peut se traduire par un nombre de champs important : beaucoup d’items pour décrire la données.
Mais aussi par une arborescence d’éléments : des métadonnées sont imbriquées dans d’autres métadonnées.
La sauvegarde est complexe, il ne s’agit pas seulement de s’assurer de la conservation d’un fichier (chaque byte est encore lisible), mais aussi et surtout de pouvoir le lire avec des logiciels qui évoluent eux aussi.
Pour cela il est également nécessaire de conserver les logiciels de lecture et de modification liés aux types de formats conservés.
Il est parfois incontournable de faire de l’émulation : recréer les conditions de lisibilité du fichier.
Il ne suffit pas de décrire les données ou de s’assurer de la lisibilité des fichiers, une archive doit rester vivante et donc il faut prévoir que ces données seront réutilisées.
Avant de passer à la dernière partie du cours, il est nécessaire de discuter ensemble du texte « Hacktivism and the Humanities: Programming Protest in the Era of the Digital University » de Elizabeth Losh :
le projet de l’article : « In thinking about the relationship between hacktivism and the humanities, this essay attempts to describe a range of related protest movements during a time in which there is a significant cohort of professors calling for hacking the academy that includes department chairs, heads of national centers, and those in the leadership of professional associations who are demanding fundamental changes in fair use, peer review, and tenure guidelines. »
l’objectif de l’autrice est de mieux comprendre l’usage de la technologie à des fins politiques, les humanités numériques étant dans une position particulière : articulation d’enjeux théoriques et de pratiques réelles ;
il est nécessaire de conserver un regard critique sur les objets produits et leur utilisation (critical code studies ) ;
s’agit-il seulement de stratégies de visibilité ?
comment élargir les initiatives et ne pas limiter les actions (et les réflexions) au monde universitaire ?
4. Les DH en action #
les humanités dans la vraie vie
militantisme et objectivité scientifique
les productions en DH : que devient le code ?
Ce qu’il faut prendre en considération, c’est à quel point les humanités ont un impact dans la société, le monde.
Même des recherches qui peuvent sembler très théoriques, ont en fait une influence sur des applications concrètes.
Expliquer comment des recherches théoriques ont un impact sur la société contemporaine.
Résumé des 10 séances #
Séance 01 - Origines des humanités numériques/Classer
Séance 02 - Informatique et Internet/Écrire
Séance 03 - Le Web 1/Chercher
Séance 04 - Le Web 2/Numériser
Séance 05 - Transcrire le texte/Encoder
Séance 06 - L’édition numérique 1/Lire
Séance 07 - Les données 1/Visualiser
Séance 08 - La publication académique/Structurer
Séance 09 - L’édition numérique 2/Publier
Séance 10 - Les données 2/Informer
Séance 01 - Origines des humanités numériques/Classer #
rencontre des humanités et de l’informatique
automatiser le classement/l’indexation
atteindre des niveaux impossibles sans le numérique
l’Index Thomisticus de Roberto Busa : un des premiers projets en DH
Internet : le réseau de réseaux (protocoles et infrastructures)
le Web : un service d’Internet
informatique personnelle : accès à des machines à tout faire calculer
Wikipédia : le livre collectif réinscriptible
Extrait du documentaire World Brain de Stéphane Degoutin et Gwenola Wagon.
Séance 03 - Le Web 1/Chercher #
le Web : des contenus liés de façon décentralisée
les moteurs de recherche : des algorithmes pour classer
des moteurs de recherche spécialisés : adapter les outils
le Web est-il devenu trop compliqué ?
« Hypertext »: Human-readable information linked together in an unconstrained way.
Tim Berners-Lee, « Information Management: A Proposal »
Séance 04 - Le Web 2/Numériser #
Internet, le Web et l’hypertexte : un nouvel environnement pour le texte
la description des documents : pour les classer et les trouver
la numérisation pour conserver valoriser
numérisation : description, photographie, OCR, mise en ligne
Séance 05 - Transcrire le texte/Encoder #
transcrire : donner une représentation du texte
traiter du texte : la sémantique avant tout
baliser : transcrire sans compromettre, voir enrichir
XML TEI : des modèles de données, une implémentation technique de la transcription
Séance 06 - L’édition numérique 1/Lire #
l’édition : un processus qui opère sur des contenus, en 3 fonctions) : choix et production, légitimation, et diffusion
utiliser le numérique : ne pas reproduire l’analogique avec de nouveaux moyens
livre numérique : fichier affiché sur un écran 🤔
des livres numériques : variété de formes
L’édition peut être comprise comme un processus de médiation qui permet à un contenu d’exister et d’être accessible. On peut distinguer trois étapes de ce processus qui correspondent à trois fonctions différentes de l’édition : une fonction de choix et de production, une fonction de légitimation et une fonction de diffusion.
(Epron et Vitali-Rosati 2018, p. 6)
Séance 07 - Les données 1/Visualiser #
les données : des objets numériques plus ou moins complexes
les données : des choses manipulables et calculables
visualiser des données : nouvelle appréhension du texte
Distinction entre plusieurs types de données, exemple de la notion de granularité.
We can do so much more now than find words in a string.
Geoffrey Rockwell, What is Text Analysis, Really?
Séance 08 - La publication académique/Structurer #
publication académique : des formats de publication et des contraintes d’édition spécifiques
processus de validation : fermés, ouverts, aveugles
une circulation de l’information complexe
WYSIWYG vs WYSIWYM
Stylo : un éditeur de texte conçu pour l’édition scientifique
Séance 09 - L’édition numérique 2/Publier #
éditer ≠ publier
la disparition des étapes intermédiaires ?
chaîne de publication : ensemble des méthodes, des outils et des processus qui permette de concevoir, fabriquer, produire et diffuser un livre ou plus largement une publication
des approches originales inspirées du Web
Within the digital humanities, my research interest is in considering what the digital medium can let us know about a humanities’ content.
Constance Crompton
modéliser les données
archiver : conserver les données vivantes
éthique et DH : la rigueur scientifique au service de la société