TX WebMap P18

par Félix Boisselier

livré en mars 2018

En 2011, Ruslan Enikeev a réalisé en se basant sur les données de Alexa, une “carte d'internet” disponible sur le site http://internet-map.net . Cette carte met en scène environ 350000 sites en mettant en avant l'importance et les relations (de type hyperliens) entre ces derniers. Cependant, comme elle a été réalisée il y a 7 ans et que le web étant en constante mutation, elle n'est probablement plus représentative de la réalité.

Dans une première partie bibliographique, mon travail s'est organisé autour de deux points points :

De cette analyse, j'en ai conclu que pour réaliser une carte similaire, seulement trois sources de données sont légalement envisageables :

  • Le site web visité qui peut fournir les données de visite de ces utilisateurs
  • L'utilisateur qui peut fournir ses données de navigation
  • Les plateformes du type Alexa ou SimilarWeb qui récupèrent et centralisent les deux sources de données citées au dessus

Il a été décidé de réaliser un prototype d'application en se basant sur les données de la plateforme Alexa. Cette application avait pour but de réaliser une carte similaire à la “internet-map” présentée plus tôt. Le choix s'est porté sur la plateforme Alexa afin que les cartes obtenues puissent être directement comparables, en terme de source de données, avec celles réalisées en 2011. L'application a été développée en plusieurs étapes au fur et à mesure de l'avancement de la TX afin de contourner les limitations imposées par la plateforme Alexa :

  1. Premier concept d'application pour scraper à l'aide d'un crawler basique le maximum de données disponibles directement sur l'interface web “top 500 sites” d'Alexa
  2. Ajout d'une base de données pour filtrer et capitaliser plus efficacement les données récupérées avec le concept d'application précédent
  3. Cartographie des données à l'aide de Gephi
  4. Extension de la cartographie par la réalisation d'un crawler plus intelligent

Toutes les codes et scripts cités précédemment sont disponibles sur ce repo Gitlab.

Il est a noté que j'ai toujours essayé de capitaliser le maximum de données lors de la réalisation de ces différent morceaux d'application et qu'il est ensuite possible d'appliquer des filtres sur plusieurs paramètres additionnels afin de rendre la visualisation des cartes réalisées plus dynamique.

Les résultats obtenus sur ces premières cartes sont très similaires à ceux que l'on peut retrouver sur la carte de 2011. En effet, les acteurs principaux sont toujours les mêmes avec une grosse domination du secteur internet par Google, Youtube et Facebook.

Cependant, comme toutes ces cartes sont basées sur les données des “top sites”, et qui plus est, uniquement avec la base de données Alexa.com. Il est évident que nous retrouvons essentiellement toujours la même base de cartographie. En effet, ces sites piliers sont très bien ancrés dans la société et leur utilisation est stable dans le temps.

C'est pourquoi aujourd'hui, après avoir réalisé ce prototype d'application, il est intéressant de creuser la question autour d'un crawler plus intelligent pour aller chercher des données sur des sites non présents dans ce top, ou encore de trouver une solution pour élargir les sources de données.