txs:autre:map_p18:biblioalexa

Etude de la plateforme Alexa

La plateforme Alexa existe depuis 1996 et fournis des statistiques détaillés d’utilisation des sites internet pour ses usagers. Alexa est devenu la référence dans ce domaine depuis son rachat par Amazon en 1999. Le service de base est accessible par une toolbar qui fournit les statistiques d’utilisation des sites internet à ses différents utilisateurs, tout en enregistrant leur activité. En 2002, un partenariat est réalisé autour du moteur de recherche Alexa avec la société Google.

Alexa est à la base constitué d’un moteur de recherche ainsi que d’un annuaire web basé sur OpenDirectory et est un fournisseur d’informations sur les sites internet et leur utilisation. Ces données sont intéressantes pour les webmasters et équipes marketing souhaitant améliorer le référencement de leurs sites internet par les moteurs de recherche. Pour calculer son “Trafic Rank”, la plateforme Alexa utilise :

  • Sa toolbar (disponible sur https://www.alexa.com/toolbar) : elle est installée volontairement par les utilisateurs et possède deux fonctions : la première enregistre l’activité des utilisateurs et envoie des données de contexte aux serveurs d’Alexa, la seconde permet à l’utilisateur de consulter des statistiques pour le site en cours de visite, comme par exemple : combien de personnes l’ont mis en favori, vitesse moyenne de téléchargement et d’affichage des pages, nombres de liens entrants et sortant du site, archives du site (par l’intermédiaire de la Wayback Machine qui appartient aussi à Alexa)
  • Par le script de trafic analysis : ce script est un service payant fourni par Alexa et concurrent direct de la plateforme Google Analytics. Il permet aux webmasters, en introduisant un petit morceau de javascript sur leur site internet, d’obtenir des statistiques détaillées de l’utilisation de leur site. Ces statistiques sont également capitalisées par la base de données globale d’Alexa.
  • Par la nouvelle méthode ajoutée en 2008 : le fonctionnement de cette méthode n’est pas publiquement communiqué par Alexa, si ce n’est qu’elle permet de grandement diminuer les erreurs en multipliant les sources de données. J’ai pu trouver (ici par exemple) qu’aujourd’hui 25000 extensions de navigateurs incluent le script d’analyse du comportement utilisateur d’Alexa et il y a fort à parier que ces sources font partie de la “nouvelle méthode”.

Il faut noter que le Trafic Rank donné par Alexa est calculé sur une période glissante de trois mois, et que pour des sites avec un rang supérieur à 50000, il peut-être très variable d’un jour à l’autre.

Les données Alexa (ainsi que celles des concurrents qui fonctionnent aussi sur le même principe) sont souvent critiquées sur deux points :

  1. La sensibilisation des utilisateurs : ils sont généralement peu au courant qu’ils envoient leurs données de navigation aux serveurs d’Alexa. C’est à dire qu’ils pensent utiliser un service de toolbar leur fourni des informations globale sur le site visité, sans pour autant avoir conscience qu’ils visualisent une partie de leurs propres données
  2. La précision des données : ces dernières proviennent toutes des utilisateurs de la toolbar (même si depuis 2008 d’autres sources sont possiblement présentes telles que des applications partenaires). C’est à dire qu’elles proviennent toutes d’un set d’utilisateurs biaisé. En effet, les données Alexa sont des données principalement à destination des services Marketing d’entreprises ou alors pour permettre aux webmasters de sites internet d’améliorer leur référencement. Ce sont ces types d’utilisateurs qui installent la toolbar et donc implicitement ce type d’utilisateur qui capitalisent plus de données et obtiennent de meilleurs classements… C’est pour cette raison qu’Alexa a élargi ses sources de données (sans pour autant les citer clairement).

Pour avoir accès aux données capitalisées par Alexa, il existe plusieurs types d’abonnements payant (à partir de 20$/mois). Ces abonnements permettent aux webmasters d’avoir accès à des données précises par rapport à l’utilisation de leur propre site internet, ou alors d’avoir accès à des données plus basique par rapport aux sites qui leur sont concurrents.

Plus l’abonnement est élevé et plus les données fournies sont nombreuses et peuvent aller jusqu’à la prédiction des sets d’utilisateurs et leurs intérêts. Par exemple : 60% des utilisateurs du site sont des hommes âgés entre 30 et 40 ans avec un attrait particulier pour les voitures et sports automobiles.

De plus, ces données sont également disponibles par l’intermédiaire de deux APIs :

  1. Alexa Top Sites : cette API procure des informations générales basiques sur la liste des 100000 premiers sites mondiaux, comme par exemple le rang au classement général, ou alors le rang pour un pays donné et le nombre de vues. Ces données restent cependant assez limitées et sont facturées $0.0025/URL. C’est à dire pour la liste totale : 250€
  2. Alexa Web Information Service : cette API bien plus complète permet de récupérer des données sur un site en particulier et corresponds à ce qu’un utilisateur peut voir sur le site internet. En terme de prix, cette API est gratuite pour 1000 requêtes/mois puis les prix échelonnent entre $0.00030 et $0.00045 par requête pour une utilisation de >1000 requêtes/mois. Ainsi pour récupérer des informations supplémentaires pour 100000 sites, on en a pour 45€. En revanche, les upstreams et dowstreams links nécessaires à la réalisation de la cartographie voulue ne sont pas disponibles via l’API.

Parmi les concurrents de la plateforme Alexa, trois sortent du lot :

  • www.similarweb.com est donné comme la meilleure alternative et fonctionne sur le même principe que Alexa et sa toolbar ou ses scripts de SEO. Il est légèrement plus cher mais est donné comme plus complet et bien plus simple d’utilisation. En terme de données, les comparaisons donnent des données similaires avec celles de Alexa (ce qui est plutôt rassurant concernant la fiabilité de ces plateforme) jusqu’à un rang d’environ 100000. Au delà les deux plateformes ont des données qui divergent et qui sont sujettes à des changements importants jour après jour.
  • www.quantcast.com est une autre alternative qui fourni des données bien plus précise car non basées sur un set d’utilisateur de toolbar, mais plutôt sur des partenariats avec les sites web. De ce fait, la plateforme ne fourni des données que pour un set réduit de site internet et n’est donc pas complète
  • www.compete.com était donné comme la meilleure alternative, mais à malheureusement fermée en 2016
  • txs/autre/map_p18/biblioalexa.txt
  • de 127.0.0.1