Séance 03 - Le Web 1/Chercher | LLM1300 Introduction aux humanités numériques

Séance 03 - Le Web 1/Chercher

2021-02-07 — Version imprimable

Support de présentation (ouvrir en grand) :

Utilisez les flèches ← et → pour naviguer entre les diapositives.

Sommaire

Plan #

Rappels : Internet, le Web et ses infrastructures
Les moteurs de recherche
Étude de cas : Isidore.science
Une perspective numérique

Extrait du documentaire World Brain de Stéphane Degoutin et Gwenola Wagon.

Voir la vidéo en ligne : https://vimeo.com/381166153#t=80s.

1. Rappels : Internet, le Web et ses infrastructures #

Internet : un réseau de réseaux
le Web : un service d’Internet
une infrastructure matérielle

1. Rappels : Internet, le Web et ses infrastructures #

L’intention initiale du Web #

« Hypertext »: Human-readable information linked together in an unconstrained way.
…
access from remote machines is essential
…
an important phase in the design of the system is to define this interface
Tim Berners-Lee, « Information Management: A Proposal »

Retour sur le texte de Tim Berners-Lee, « Information Management: A Proposal ».

Le constat de Tim Berners-Lee est le suivant : des informations se perdent au CERN, notamment en raison de l’organisation hiérarchique et de la diversité des machines, des logiciels et des formats utilisés. L’information est éparpillée via différents médiums, pour être mesure d’être informé il faut passer par plusieurs canaux. Il faut trouver un moyen pour que les centaines de chercheur·e·s puissent échanger des documents entre elles et eux.

La solution proposée, d’abord abstraite, repose sur plusieurs principes :

une structure non-hiérarchique, mais explosée en quelque sorte ;
il faut relier des nœuds de différentes natures ;
il faut penser à une organisation en diagramme et non en arborescence ou en arborescence ;
l’hypertexte permet de régler plusieurs de ces problèmes : c’est un système de lien entre documents ;
le croisement de bases de données est plus puissant qu’une centralisation : pour cela il faut régler les problèmes d’interopérabilité ;
séparer le stockage de l’information de l’affichage de celle-ci : l’interface d’accès est indépendante des systèmes de stockage ;
Tim Berners-Lee aborde la question du design : c’est essentiel autant pour le système global que pour l’interface.

2. Les moteurs de recherche #

pourquoi des moteurs de recherche ?
le PageRank : origines et fonctionnement
le problème des moteurs de recherche

Penser, concevoir et proposer des moteurs de recherche hors logique commerciale est nécessaire, que ce soit dans des domaines généralistes ou des domaines spécifiques comme la recherche scientifique en sciences humaines.

2. Les moteurs de recherche #

Pourquoi des moteurs de recherche ? #

indexer le Web : les annuaires
la recherche par requête
la limite des premiers moteurs

Un moteur de recherche est un outil qui permet de rechercher des sites et des pages web ainsi que des documents disponibles sur le Web.

Un moteur de recherche a deux fonctions :

l’indexation de pages web et de documents ;
la recherche dans ces pages web et ces documents indexés.

2. Les moteurs de recherche #

Le PageRank : origines et fonctionnement #

comment classer des dizaines de milliers de pages web ?
détourner un système existant :
principe : définir quantitativement la popularité d’un document

Le PageRank mesure quantitativement la popularité d’une page web, il fait partie d’autres indicateurs qui permettent le classement des pages web.

Le système du PageRank, conçu et utilisé par Google, est relativement complexe. Le PageRank est basé sur le Science Citation Index, un système de classement des articles scientifiques. Ce que l’on peut retenir c’est que la popularité d’une page web A est mesurée en fonction du nombre de pages web qui pointent vers cette page web A. Si les pages web qui pointent vers la page web A, alors la popularité sera d’autant plus importante. Il s’agit donc de la prise en compte du nombre de pages web qui pointent vers la page, mais également indirectement du nombre de pages web qui pointent vers les pages web qui pointent vers la page web A.

Pour en savoir plus sur le fonctionnement du PageRank : PageRank sur Wikipédia.
À lire : « Dans l’esprit du PageRank », un article de Dominique Cardon dans la revue Réseaux.

3. Étude de cas : Isidore.science #

ISIDORE est un moteur de recherche permettant de découvrir et de trouver des publications, des données numériques et profils de chercheur·e·s en sciences humaines et sociales (SHS) venant du monde entier.

3. Étude de cas : Isidore.science #

Moissonner et enrichir #

Isidore construit son index en allant moissonner des entrepôts de données
ces données sont enrichies à partir de référentiels et de thésaurus

3. Étude de cas : Isidore.science #

Lier les données #

identifier les auteurs·rices
organiser la connaissance
proposer un graphe de connaissances autour d’un sujet, d’un·e auteur·rice

3. Étude de cas : Isidore.science #

Isidore aujourd’hui : du moteur de recherche à l’outil scientifique #

trouver de l’information
classer les données trouvées
suivre les flux
enrichir Isidore

C’est là que nous pouvons comprendre la puissance d’un tel outil, qui devient bien plus qu’un moyen d’accéder à de l’information, mais aussi un outil de gestion des flux, etc. En savoir plus : « ISIDORE a 10 ans ! », https://humanum.hypotheses.org/6762.

4. Une perspective numérique #

une mauvaise tournure ?
un monde de compromis ?
web0, Gemini, Le Web des gens, etc.

Quelques ressources complémentaires #

Une histoire de… l’Internet, une série de podcasts sur France Culture
[Le documentaire World Brain de Stéphane Degoutin et Gwenola Wagon](https://vimeo.com/381166153#t=80s](https://vimeo.com/381166153#t=80s)
Il était une fois Internet, une série de conférences sur le fonctionnement, les enjeux et les protocoles d’Internet
6|5, un livre d’Alexandre Laumonier sur le trading à haute fréquence, avec en creux une histoire des communications (livre disponible à la Bibliothéque universitaire).