Séance 07 - Les données 1/Visualiser

Version imprimable

Support de présentation (ouvrir en grand) :

Utilisez les flèches ← et → pour naviguer entre les diapositives.

Sommaire

Plan #

  1. Données, programmes et logiciels
  2. Manipuler des données
  3. Étude de cas : Voyant Tools

1. Données, programmes et logiciels #

  • qu’est-ce qu’une donnée ?
  • qu’est-ce qu’un programme informatique ?
  • la nécessité d’étudier les logiciels

1. Données, programmes et logiciels #

Qu’est-ce qu’une donnée ? #

  • un livre
  • un texte
  • un paragraphe
  • un mot
  • une lettre
  • une donnée sur la donnée

Pourquoi parler de « données » ? Dans le cadre des humanités, l’objectif est de comprendre, analyser et partager des textes. Ces textes peuvent être considérés comme des données : le texte lui-même ou une partie de ce texte.

Sans donner une définition trop large, nous pouvons statuer sur le fait qu’une donnée, en humanités, peut correspondre à plusieurs éléments différents, et est liée à la notion de granularité (le niveau de précision ou d’échelle).

Distinction entre plusieurs types de données, exemple de la notion de granularité.

Dans cette illustration nous pouvons voir qu’à partir d’un objet nous pouvons disposer de plusieurs types de données :

  • un livre : un ensemble de lettres et de mots formant des textes regroupés dans un objet physique imprimé ou numérique ;
  • un titre : ici il s’agit d’une donnée sur une donnée, une métadonnée : le titre est un élément de description du livre ;
  • les dimensions du livre : il s’agit encore métadonnée ;
  • une page : une partie du livre ;
  • un paragraphe : une partie d’une page ;
  • un mot ;
  • etc.

Pour mieux comprendre ce qui est expliqué ici, il faut imaginer plusieurs actions sur ces différents niveaux de données :

  • l’extraction du titre du livre ;
  • la recherche d’occurrences dans tous le livre ou dans une page en particulier ;
  • etc.

1. Données, programmes et logiciels #

Qu’est-ce qu’un programme informatique ? #

Description et schématisation sommaires d’un programme informatique.

Un programme informatique est un processus de traitement de données : il s’agit d’une suite d’instructions qui vont permettre de traiter des données, soit en extrayant des informations, soit en transformant ces informations. Dans notre exemple nous pourrions imaginer un programme informatique qui extrait toutes les occurrences d’un terme recherché dans un livre. Cette action, qui semble simple, est découpée en une multitude de tâches réalisées par le programme informatique. Une multitude d’actions sont réalisées grâce à plusieurs mécanismes informatiques que nous pourrons découvrir plus en détail dans la suite.

Quelle est la différence avec un logiciel ? Un logiciel regroupe un ou plusieurs programmes informatiques, il s’agit souvent de l’assemblage complexe d’instructions qui vont lire des données et réaliser des opérations sur ces données. Un logiciel dispose souvent (mais pas toujours) d’une interface graphique : un ensemble de commandes censées faciliter la manipulation du ou des programmes. Une licence est également associée à un logiciel : l’usage est encadré. Enfin il y a une communauté d’utilisateurs et d’utilisatrices, le logiciel est censé répondre à leurs besoins, et ils et elles payent parfois pour avoir accès ou utiliser un logiciel.

1. Données, programmes et logiciels #

La nécessité d’étudier les logiciels #

Qu’est-ce que fait un logiciel ? Comment a-t-il été pensé ?

En prolongeant notre exemple, nous pouvons nous interroger sur la façon dont fonctionne le logiciel en question. Comment a-t-il été conçu ? Quels sont ses objectifs ?

Dans cet exemple très simple, il serait a priori possible de comprendre comment fonctionne ce logiciel :

  • comment parvient-il à créer un index de tous les termes pertinents des différents textes, en conservant la mention de chaque page pour chaque terme/mot/expression retenue ;
  • quels sont les mots qu’il ne retient pas dans l’index et pourquoi ?
  • etc.

1. Données, programmes et logiciels #

La nécessité d’étudier les logiciels #

Commentaires du texte de Lev Manovich :

Manovich, L. (2017). Logiciel culturel. Back Office(1). Consulté à l’adresse http://www.revue-backoffice.com/numeros/01-faire-avec/lev-manovich-logiciel-culturel

Texte de Lev Manovich commenté par Thierry Amyot.

Ce qu’il faut retenir de ce texte :

2. Manipuler des données #

Intervenant invité : Marcello Vitali-Rosati.

  • pourquoi manipuler des données en littérature ?
  • introduction à la programmation : du texte et du code
  • regard critique sur les pratiques en humanités numériques

Discussion autour du texte de Geoffrey Rockwell (What is Text Analysis, Really?).

We can do so much more now than find words in a string.

Ce texte de Geoffrey Rockwell est intéressant pour plusieurs raisons :

  • le titre faire référence à un texte important en humanités et en édition numérique : « What is text, really? » (DeRose, S. J., Durand, D. G., Mylonas, E. et Renear, A. H. (1990). What is text, really? Journal of Computing in Higher Education, 1(2), 3‑26. https://doi.org/10.1007/BF02941632) ;
  • les enjeux théoriques autour de la définition du texte ont des répercussions sur les outils utilisés pour analyser la littérature et la façon dont les résultats peuvent être interprétés ;
  • ce texte montre combien la constitution d’une communauté scientifique est primordiale pour formuler, adresser et traiter des questions complexes ;
  • ce texte, écrit en 2001, ne fait pas mention des humanités numériques, mais des humanities computing.

L’intervention de Marcello Vitali-Rosati intervient dans ce contexte : comment manipuler du texte avec un langage de programmation ? Quels sont les choix et les contraintes inhérentes à l’utilisation de l’informatique pour analyser des textes ?

L’approche des Jupyter Notebooks (https://fr.wikipedia.org/wiki/Jupyter#Jupyter_Notebook) est celle de la programmation lettrée, un concept introduit par Donald Knuth dans les années 1970 : écrire conjointement du code (des instructions qui vont être lues et appliquées par des machines) et écrire des instructions lisibles par des humains. Le code peut être lu comme du texte par des humains et comme des instructions par des machines. Cette dualité apporte plusieurs avantages :

  • décrire des actions avec un langage compréhensible par des humains, qui va avoir comme objectif de documenter des actions/instructions ;
  • faciliter le travail des machines informatiques qui vont appliquer ces instructions.

Avant de commencer à manipuler du texte, il faut s’interroger sur ce qu’est un texte, comme nous l’avons vu avec le texte de Geoffrey Rockwell cette question n’est pas si évidente. Un texte est une série discrète d’entrants qui correspondent à une série d’impulsions électriques. L’approche computationnelle nous oblige à comprendre des choses qui nous semblaient jusqu’ici normales : nous allons faire des choix en terme de structuration puis de traitement de données.

Pour prolonger la présentation de Marcello Vitali-Rosati, le tutoriel (en français) suivant est accessible pour des personnes ne faisant pas de programmation : Introduction aux carnets Jupyter.

3. Étude de cas : Voyant Tools #

  • qu’est-ce que fait Voyant Tools ?
  • pourquoi ce logiciel a-t-il été créé ?
  • quelles interrogations porte ce logiciel ?