par Félix Boisselier
livré en mars 2018
En 2011, Ruslan Enikeev a réalisé en se basant sur les données de Alexa, une “carte d’internet” disponible sur le site http://internet-map.net . Cette carte met en scène environ 350000 sites en mettant en avant l’importance et les relations (de type hyperliens) entre ces derniers. Cependant, comme elle a été réalisée il y a 7 ans et que le web étant en constante mutation, elle n’est probablement plus représentative de la réalité.
Dans une première partie bibliographique, mon travail s’est organisé autour de deux points points :
De cette analyse, j’en ai conclu que pour réaliser une carte similaire, seulement trois sources de données sont légalement envisageables :
Il a été décidé de réaliser un prototype d’application en se basant sur les données de la plateforme Alexa. Cette application avait pour but de réaliser une carte similaire à la “internet-map” présentée plus tôt. Le choix s’est porté sur la plateforme Alexa afin que les cartes obtenues puissent être directement comparables, en terme de source de données, avec celles réalisées en 2011. L’application a été développée en plusieurs étapes au fur et à mesure de l’avancement de la TX afin de contourner les limitations imposées par la plateforme Alexa :
Toutes les codes et scripts cités précédemment sont disponibles sur ce repo Gitlab.
Il est a noté que j’ai toujours essayé de capitaliser le maximum de données lors de la réalisation de ces différent morceaux d’application et qu’il est ensuite possible d’appliquer des filtres sur plusieurs paramètres additionnels afin de rendre la visualisation des cartes réalisées plus dynamique.
Les résultats obtenus sur ces premières cartes sont très similaires à ceux que l’on peut retrouver sur la carte de 2011. En effet, les acteurs principaux sont toujours les mêmes avec une grosse domination du secteur internet par Google, Youtube et Facebook.
Cependant, comme toutes ces cartes sont basées sur les données des “top sites”, et qui plus est, uniquement avec la base de données Alexa.com. Il est évident que nous retrouvons essentiellement toujours la même base de cartographie. En effet, ces sites piliers sont très bien ancrés dans la société et leur utilisation est stable dans le temps.
C’est pourquoi aujourd’hui, après avoir réalisé ce prototype d’application, il est intéressant de creuser la question autour d’un crawler plus intelligent pour aller chercher des données sur des sites non présents dans ce top, ou encore de trouver une solution pour élargir les sources de données.