Bandeau
algorithm

Les algorithmes des moteurs de recherche (GIPTIC 2020/2021)

Atelier GIPTIC 2020-2021 par Benjamin MARTIN.

Un algorithme est une suite d’opérations ou d'instructions permettant de résoudre un problème. Chaque moteur de recherche a son propre algorithme, mais leurs modes de traitement et les éléments pris en compte sont généralement très proches. Dans cet article, je vous propose de découvrir comment les moteurs de recherche établissent leurs listes de résultats mais aussi les principales controverses sur le traitement de l'information et la collecte des données.

Il n'y a pas que des moteurs de recherche qui permettent d'explorer le Web !

 

Le Web est constitué de millions de documents liés entre eux par des liens hypertextes… Il n'est jamais figé car à chaque instant, des pages sont créées, d’autres supprimées et des liens sont rompus ou ajoutés. (Si vous souhaitez montrer à vos élèves une version précédente d'un site, vous pouvez utiliser le site Way Back Machine)

Se pose alors la question suivante : Comment un internaute fait-il pour s’y retrouver et être certain d’être sur le document le plus pertinent ?

Si aujourd’hui la réponse la plus commune est d’utiliser un moteur de recherche, il a existé d’autres moyens de “farfouiller” le Web :

 

  • Un annuaire est un site Web proposant une liste classée d'URL. Le classement se fait typiquement dans une arborescence de catégories. Avec le développement des moteurs de recherche tels qu'AltaVista et Google, les annuaires Web ont perdu de leur intérêt pour les utilisateurs, particulièrement en ce qui concerne les annuaires généralistes. Ces derniers ont en effet beaucoup de mal à lutter face à la rapidité et la simplicité d’utilisation des moteurs de recherche modernes. Ainsi en 2014, Yahoo a fermé son service Yahoo Directory. Cet annuaire était à l'origine même de la création de l'entreprise vingt ans plus tôt. Aujourd’hui les annuaires peuvent nous sembler dépassés… mais cette solution est en réalité toujours utilisée par les internautes navigant sur le Dark Web. (Les contenus en .onion n’étant pas indexés par les moteurs de recherche.)

 

  • Un portail Web est un site Web qui offre une porte d'entrée commune à un large éventail de ressources et de services accessibles sur Internet, centrés sur un domaine d'intérêt ou une communauté particulière. Nous nous contenterons de rappeler que esidoc est un portail.

 

  • Plus récemment les QR codes, permettent d’accéder directement à une page Web en les scannant avec l’appareil photo de son téléphone sans passer par un moteur de recherche.



Il faut donc garder à l’esprit que les moteurs de recherche ne sont pas les seuls moyens de naviguer sur le Web. Néanmoins s'ils se sont imposés, c'est parce que l'interface est extrêmement simple : un champ dans lequel on renseigne un (ou plusieurs) mot clef. Mais aussi, contrairement aux portails et annuaires qui sont gérés par des humains, l'indexation du Web est réalisée par des programmes ! Ils ne dorment jamais, vont plus vite, ne font pas d'erreur de saisie, etc.

 

L'univers des moteurs de recherche !

 

Google est aujourd'hui le moteur de recherche le plus utilisé en Europe et aux Etats-Unis mais il n'est pas le seul moteur de recherche existant. D'autres géants partagent la scène internationale : Baidu en Chine, Yandex en Russie.

Bing, le moteur de recherche de Microsoft lancé en 2009 a lui aussi beaucoup de trafic (probablement parce qu'il est le moteur de recherche par défaut du navigateur Internet Exploreur / Edge).

A côté d'eux, d'autres moteurs se font peu à peu une place en se positionnant comme des outils éthiques :

 

CC Search méta-moteur de recherche d'images libres de droits. Il propose actuellement près de 300 millions d'images en licence Créative Commons.

Qwant / Qwant Junior respecte votre vie privée tout en facilitant la découverte et le partage grâce à une approche sociale.

DuckDuckGO moteur de recherche qui fait de la protection des données sa priorité. DuckDuckGo est le moteur de recherche par défaut du navigateur TOR.

Ecosia est un moteur de recherche solidaire allemand. Il reverse 80 % de ses bénéfices selon un programme de reforestation présent essentiellement dans les pays du sud.

Collecter puis indexer

 

Appelés crawlers, user-agent, bots ou encore spiders ces logiciels sont conçus pour visiter les pages Web et copier les informations qui s'y trouvent. Ces logiciels se déplacent grâce aux liens hypertextes reliant les pages Web entre elles. Une page n'étant pointée par aucun lien sera donc hors de leur portée et sera dans ce que l'on appelle de Deep Web. Il existe de nombreuses raisons pour qu'une page soit dans le Deep Web, je vous invite à décourir ou redécouvrir mon article sur le Dark Web où plusieurs raisons sont listées.

Chaque moteur déploie plusieurs crawlers simultanément, qui visitent et revisitent les documents à des fréquences variées. Dans le code des pages, l'éditeur peut inscrire des informations pour faciliter (par exemple Sitemaps qui indique les pages mises à jour ou les nouvelles pages) ou interdire l'indexation des pages (avec le protocole robot.txt que l'on inscrit à la racine d'un site Web).

Après avoir pris connaissance des documents disponibles, le moteur les répertorie dans un même index en engendrant pour chacun d'eux des descripteurs : thème, date, auteur, mots-clés, titres, etc. L'index forme la base sur laquelle s'exercera le traitement algorithmique.

 

Apparier requête et contenus :

 

Après que l'utilisateur a renseigné sa requête, le moteur de recherche ordonne les sites qu'il a indexé pour établir une liste de résultats. Le traitement algorithmique va sélectionner les sites contenant les mots clefs puis va les classer pour proposer prioritairement les plus pertinent "selon lui".

Cette opération n'est pas neutre car pour fonctionner l'algorithme doit s'appuyer sur des critères afin de pondérer les résultats :

 

Contenu

L'algorithme s'appuie sur les mots employés par l’internaute dans sa requête et les mots employés par l’éditeur pour rédiger son contenu : Les mots figurant dans l’URL, Les balises <H1>titre</H1>, etc.

Centralité Chaque lien pointant vers un document est un indicateur de pertinence. (PageRank pour Google).
Source Déduire la pertinence de la page en calculant la pertinence du site. L’algorithme se base sur différents critères comme le watch time, la moyenne du PageRank de l’ensemble des pages, etc.
Autorité Balise “rel=author” identification de l’auteur via Google+ et lui attribuer une pertinence en fonction par exemple du PageRank moyen des pages signées, de sa présence sur Wikipédia, Google Books ou Google Scholar (fin de ce dispositif en 2014)
Performance Efficacité de l’infrastructure, vitesse de chargement de chaque page, etc.
Signaux sociaux Recommandations effectuées par les internautes : likes, étoiles, commentaires, nombre de partages, etc.
Interventions manuelles

Processus de sélection et de hiérarchisation par des employés.

Personnalisation Utilisation de vos traces pour vous proposer des contenus similaires.
Autres critères Le nombre de critères pris en compte par Google pour apparier une requête et des contenus est compris entre 200 et 300 ! l’historique du taux de clics, la fraîcheur des documents, la fréquence de publication, la fréquence des màj, etc.

 

Pour en savoir plus, sur le fonctionnement des moteurs de recherche, je vous conseille la lecture du livre "Les moteurs de recherche" de Guillaume Sire publié en 2016.

Se questionner sur le traitement de l'information par les algorithmes des moteurs de recheRche, revient à s'interroger sur la manière dont les algorithmes sélectionnent et classent les résultats de la recherche : Ce processus est-il neutre, impartial ?

 

De la responsabilité des moteurs de recherche :

 

Un moteur de recherche est-il un simple objet technique passif ? Une sorte de tuyau, neutre et objectif qui se contente de faire passer tous les sites Web sans discrimination...

Ou au contraire le moteur de recherche est-il un éditeur actif ? Subjectif, responsable de la liste de résultats qu'il a produit ?

Aujourd'hui, une troisième approche consiste à présenter le moteur de recherche comme un conseiller (James Grimmelmann). Ce conseiller est censé écouter les besoins de l'internaute et y répondre en lui donnant le choix entre plusieurs solutions.

 

Principales controverses liées au traitement de l'information :

 

Transparence : Les codes de la plupart des algorithmes sont secrets et il est souvent impossible aux internautes de connaître les données qui entrent dans le programme et comment elles sont pondérées...

les éditeurs avancent deux raisons à cela. Primo, le secret industriel pour éviter de perdre leur avance. Secundo, pour empêcher les éditeurs des sites Web de hacker l'algorithme en améliorant les techniques de SEO (Search Engine Optimization).

 

Néanmoins deux remarques viennent contrebalancer ces arguments. Les sites pouvant se le permettre ont déjà recours à des techniques de SEO pour améliorer leurs performances.

Et surtout, aujourd'hui, il est impossible aux internautes de savoir si l'algorithme du moteur de recherche ne met pas en avant dans ses résultats ses propres services ou ses partenaires commerciaux. Par exemple : Les contenus vidéos de YouTube, Viméo et Dailymotion sont-ils traités de la même manière par le moteur de recherche Google ? Google ne risque-t-il pas de privilégier YouTube qui lui appartient ?

N.B. La question de la transparence peut aussi permettre de se questionner sur une éventuelle censure. Prenons le cas du moteur Chinois Baidu. Les résultats pour la requête tibet libre 西藏 自由 n'affiche que des sites touristiques.

 

Bulle informationnelle : Lorsque vous regardez une vidéo sur YouTube (Plateforme appartenant à Google), l'algorithme de YouTube vous proposera automatiquement d'autres vidéos susceptibles de vous intéresser.

Pour sélectionner ces vidéos, l’algorithme utilise vos traces ! En se basant sur vos abonnements, les vidéos que vous aimez, etc. l’algorithme va prédire que telle ou telle vidéo est susceptible de vous faire rester plus longtemps sur la plateforme et donc vous faire regarder plus de publicités.

Pour être certain de capter votre attention, l’algorithme vous proposera toujours des vidéos ayant le même point de vue. L’utilisateur s’enferme alors dans une bulle où toutes les informations vont dans le même sens…

Par exemple, les gens regardant des vidéos complotistes se verront proposer d’autres vidéos complotistes ! L’internaute peut alors être victime d’un biais cognitif, que l’on appelle biais de confirmation, car face à l’abondance de ressources allant dans le même sens il en conclura que ces informations sont vraies.

 

Expérience de pensée :

 

La longue traine : Le volume de documents sur le Web est ineffable aussi "décider" de mettre en avant tel ou tel résultat, même en se basant sur un algorithme le plus neutre possible, implique une sélection. L'algorithme classe les sites en fonction de leur pertinence. Aussi tous les résultats des premières pages nous semblent répondre à notre recherche. A contrario plus on avance sur le pager, moins on trouvera d'informations susceptibles de nous intéresser. (Mais cela ne signifie pas qu'elles sont fausses).

Or, en imaginant que ce schéma ci-dessous représente le nombre de pages en abscisse et le nombre d'informations pertinentes en ordonnée... on constate que l'aire sous la courbe en rouge est l'aire sous la courbe en jaune sont comparables. (C'est ce que l'on appelle la longue traine.) En conclusion, il y aurait donc autant de contenus pertinents dans les premières pages que dans toutes les autres réunies...

 

 

 

Web sémantique :

 

Le Web sémantique (ou Web 3.0) vise à faciliter l'exploitation des données structurées, pour donner du sens au contenu des pages Web, en permettant leur interprétation par des machines.

Vous avez déjà été confronté à du contenu généré automatiquement de cette manière. Lorsque vous faites une recherche sur Google, une portlet apparait sur la droite de votre écran avec des informations piochées dans Wikipédia ou bien encore sur weather.com si vous demandez la météo de votre ville. Google exploite les contenus de ces sites Web offrant à l'internaute la réponse à sa question sans même avoir à aller sur le site ayant produit l'information.

De manière plus poussée encore, prenons le cas du moteur de recherche Wolfram|Alpha qui a fait le choix de ne pas afficher une liste de résultats mais d'aller piocher des informations dans plusieurs sites Web qu'il agrège sur une page unique.

Les outils utilisant le Web sémantique pour produire ses résultats permettent à l'utilisateur de gagner beaucoup de temps. En contrepartie l'utilisateur doit accorder sa confiance aux outils puisqu'il leur délègue le choix du site d'où émane l'information.

Les utilisateurs ne savent généralement pas ce qui est collecté et à quelle fin leurs données sont utilisées. (Big data : données, données, donnez-moi !)

La pertinence des résultats de Google n'est pas due qu'à son algorithme... L'entreprise possède un historique des données relatives à l'utilisation de son moteur depuis 1998. Ces données, appelées query logs, indiquent quelles ont été les requêtes effectuées par les internautes, où, quand et sur quels liens ils ont cliqué. Elles sont utilisées pour mesurer la pertinence supposée des contenus et éventuellement personnaliser les résultats. L'exploitation de ces données (Big Data) permet à son algorithme d'avoir une longueur d'avance considérable sur ses concurrents.

 

Constater la collecte des données avec les élèves

 

Voici une sitographie qui selon moi peut vous aider à faire prendre conscience aux élèves du nombre de traces que nous laissons derrière nous sans même le savoir. Parfois, on prend immédiatement conscience du problème, par exemple quand on constate que tous nos déplacements sont enregistrés par google maps. Ou qu'il existe une liste de sujets enregistrés par Google (suite à nos recherches) pour définir notre profil et nous proposer des publicités ciblées. D'autres fois, ces traces semblent sans conséquences... après tout, peu importe que l'on sache où vit mon chat ! Mais en y regardant d'un peu plus près... si l'on est capable de placer des chats sur une carte, qu'est ce qui nous empêche de faire la même chose pour leurs maîtres ?

 

Ce que Google sait de vos déplacements 

 

(Il vous faut être connecté à votre compte Google)

Où étiez-vous le 18 mars de l'année dernière ? Vous ne vous en rappelez pas ?

Pas de panique... Google va nous le dire...

Ce que Google sait de vos centres d'intérêts

 

(Il vous faut être connecté à votre compte Google)

Vos annonces publicitaires sont personnalisées sur la base des informations que vous avez ajoutées à votre compte Google, des données fournies par les annonceurs partenaires de Google et des estimations concernant vos centres d'intérêts.
Google Trends

Découvrez ce que recherchent les internautes du monde entier.

Webkay Acronyme de "What Every Browser Knows About You". Ce site vous montre ce que votre navigateur sait sur vous et ce qu'il donne comme informations aux sites que vous visitez.
Je sais où vit ton chat ! Ce que les données EXIF révèlent sur vos photos...

 

Pourquoi c'est important :

 

Source de ce paragraphe : "Traçage... et alors? On connait d'avance les 7 choses que vous allez nous dire" Décryptage des arguments qu'on entend le plus à propos des données et de la vie privée.

 

Je n'ai rien à cacher : Que vous ayez quelque chose à cacher ou non est complètement hors de propos. La vie privée n'a rien à voir avec la dissimulation- c'est une question d'autonomie, de pouvoir et de contrôle; elle tient à votre capacité à décider comment vous vous présentez au monde.

Cela m'est égal si on sait que je mange des corn-flakes au petit-déjeuner : Quand vous regardez les traces numériques que vous laissez derrière vous, il y a un mélange: certaines sont vraiment banales (votre petit-déjeuner), mais d'autres peuvent être beaucoup plus personnelles -où vous allez (qui peut aussi montrer ce que vous faites et avec qui), ou bien quel est votre état de santé

Ce n'est que Internet : Vous cherchez un job ou vous demandez un crédit? Les entreprises peuvent vous rechercher sur Google ou acheter votre profil à un courtier en données. Vous réservez un vol. Êtes-vous sûr qu'il n'y a pas de discrimination sur le prix de la place, basée sur vos précédentes recherches? Ou pire -la blague faite sur Twitter qui a été stockée, et qui fait que vous obtenez ou pas un visa. Même quand vous laissez votre téléphone et votre ordinateur à la maison, des caméras vous filment quand vous entrez dans le métro; votre carte de transport est enregistrée; et une fois arrivé à destination un ami prend une photo, vous identifie dessus et la poste sur Twitter.

Mais je suis un parmi des millions... comment pourrait-on s'intéresser à moi en particulier ? Vous imaginez peut-être des gens assis derrière des ordinateurs quelque part, qui analysent les traces numériques de millions de personnes? En réalité, ce sont des machines qui font ce travail -des machines et des algorithmes spécialement fabriqués pour l'analyse d'un très grand volume de données. Être un parmi des millions ne veut pas dire que vous pouvez vous cacher parmi la foule; cela veut dire que quand les machines comparent vos données aux données de tous les autres, les cas particuliers sont vite trouvés.

Mais j'ai une remise sur mon assurance : Quand vous allez chez le médecin, la communication avec lui est protégée. Elle est codée, si l'on peut dire, dans le concept universel de confidentialité docteur-patient, pour être sûr que vous puissiez parler sincèrement sans être sous la pression de possibles répercussions, comme si, par exemple vous étiez sous la menace de voir vos cotisations d'assurance augmenter. Mais vous seriez d'accord pour partager avec une compagnie d'assurance des données provenant d'un dispositif de santé portable qui contrôle vos pas, votre respiration, vos pulsations, et qui peut détecter une maladie chronique ou du stress- en échange d'une petite réduction? 

Mais j'ai ce service gratuitement : Ce n'est pas gratuit, vous payez avec vos données.

 

Comment limiter la collecte de vos données ?

 

Utiliser des outils éthiques ! Par exemple, ne pas utiliser Google Chrome comme navigateur mais Brave. Ou encore préférer des moteurs de recherche comme QWANT ou DuckduckGo

Toujours faire attention aux  Conditions Générales d'Utilisation (CGU) des applications que vous téléchargez. Posez-vous les bonnes questions : "pourquoi cette application a-t-elle besoin d'accéder à ma caméra, à mon GPS ou à mes contacts?"