LLM1300 Introduction aux humanités numériques

Séance 03 - Le Web 1/Chercher

Comment le paysage du Web s'est constitué et a permis aux humanités numériques de se diffuser.

Antoine Fauchié — antoine.fauchie@umontreal.ca

Plan #

Rappels : Internet, le Web et ses infrastructures
Les moteurs de recherche
Étude de cas : Isidore.science
Une perspective numérique

Extrait du documentaire World Brain de Stéphane Degoutin et Gwenola Wagon.

1. Rappels : Internet, le Web et ses infrastructures #

Internet : un réseau de réseaux
le Web : un service d’Internet
une infrastructure matérielle

1. Rappels : Internet, le Web et ses infrastructures #

L’intention initiale du Web #

« Hypertext »: Human-readable information linked together in an unconstrained way.
…
access from remote machines is essential
…
an important phase in the design of the system is to define this interface
Tim Berners-Lee, « Information Management: A Proposal »

Retour sur le texte de Tim Berners-Lee, « Information Management: A Proposal ».

Le constat de Tim Berners-Lee est le suivant : des informations se perdent au CERN, notamment en raison de l’organisation hiérarchique et de la diversité des machines, des logiciels et des formats utilisés. L’information est éparpillée via différents médiums, pour être mesure d’être informé il faut passer par plusieurs canaux. Il faut trouver un moyen pour que les centaines de chercheur·e·s puissent échanger des documents entre elles et eux.

La solution proposée, d’abord abstraite, repose sur plusieurs principes :

une structure non-hiérarchique, mais explosée en quelque sorte ;
il faut relier des nœuds de différentes natures ;
il faut penser à une organisation en diagramme et non en arborescence ou en arborescence ;
l’hypertexte permet de régler plusieurs de ces problèmes : c’est un système de lien entre documents ;
le croisement de bases de données est plus puissant qu’une centralisation : pour cela il faut régler les problèmes d’interopérabilité ;
séparer le stockage de l’information de l’affichage de celle-ci : l’interface d’accès est indépendante des systèmes de stockage ;
Tim Berners-Lee aborde la question du design : c’est essentiel autant pour le système global que pour l’interface.

2. Les moteurs de recherche #

pourquoi des moteurs de recherche ?
le PageRank : origines et fonctionnement
le problème des moteurs de recherche

2. Les moteurs de recherche #

Pourquoi des moteurs de recherche ? #

indexer le Web : les annuaires
la recherche par requête
la limite des premiers moteurs

2. Les moteurs de recherche #

Le PageRank : origines et fonctionnement #

comment classer des dizaines de milliers de pages web ?
détourner un système existant :
principe : définir quantitativement la popularité d’un document

Le système du PageRank, conçu et utilisé par Google, est relativement complexe. Le PageRank est basé sur le Science Citation Index, un système de classement des articles scientifiques. Ce que l’on peut retenir c’est que la popularité d’une page web A est mesurée en fonction du nombre de pages web qui pointent vers cette page web A. Si les pages web qui pointent vers la page web A, alors la popularité sera d’autant plus importante. Il s’agit donc de la prise en compte du nombre de pages web qui pointent vers la page, mais également indirectement du nombre de pages web qui pointent vers les pages web qui pointent vers la page web A.

Pour en savoir plus sur le fonctionnement du PageRank : PageRank sur Wikipédia.
À lire : « Dans l’esprit du PageRank », un article de Dominique Cardon dans la revue Réseaux.

3. Étude de cas : Isidore.science #

ISIDORE est un moteur de recherche permettant de découvrir et de trouver des publications, des données numériques et profils de chercheur·e·s en sciences humaines et sociales (SHS) venant du monde entier.

3. Étude de cas : Isidore.science #

Moissonner et enrichir #

Isidore construit son index en allant moissonner des entrepôts de données
ces données sont enrichies à partir de référentiels et de thésaurus

3. Étude de cas : Isidore.science #

Lier les données #

identifier les auteurs·rices
organiser la connaissance
proposer un graphe de connaissances autour d’un sujet, d’un·e auteur·rice

3. Étude de cas : Isidore.science #

Isidore aujourd’hui : du moteur de recherche à l’outil scientifique #

trouver de l’information
classer les données trouvées
suivre les flux
enrichir Isidore

4. Une perspective numérique #

une mauvaise tournure ?
un monde de compromis ?
web0, Gemini, Le Web des gens, etc.

Quelques ressources complémentaires #

Une histoire de… l’Internet, une série de podcasts sur France Culture
[Le documentaire World Brain de Stéphane Degoutin et Gwenola Wagon](https://vimeo.com/381166153#t=80s](https://vimeo.com/381166153#t=80s)
Il était une fois Internet, une série de conférences sur le fonctionnement, les enjeux et les protocoles d’Internet
6|5, un livre d’Alexandre Laumonier sur le trading à haute fréquence, avec en creux une histoire des communications (livre disponible à la Bibliothéque universitaire).

LLM1300 Introduction aux humanités numériques

Séance 03 - Le Web 1/Chercher

Comment le paysage du Web s'est constitué et a permis aux humanités numériques de se diffuser.

Plan #

1. Rappels : Internet, le Web et ses infrastructures #

1. Rappels : Internet, le Web et ses infrastructures #

L’intention initiale du Web #

2. Les moteurs de recherche #

2. Les moteurs de recherche #

Pourquoi des moteurs de recherche ? #

2. Les moteurs de recherche #

Le PageRank : origines et fonctionnement #

3. Étude de cas : Isidore.science #

3. Étude de cas : Isidore.science #

Moissonner et enrichir #

3. Étude de cas : Isidore.science #

Lier les données #

3. Étude de cas : Isidore.science #

Isidore aujourd’hui : du moteur de recherche à l’outil scientifique #

4. Une perspective numérique #

Quelques ressources complémentaires #

Pourquoi des moteurs de recherche ? #