Un bookmarklet pour extraire des données de pages Web, ConvExtra

On s’est tous retrouvé dans la situation où l’on devait récupérer des données se trouvant sur une ou plusieurs pages Web, par exemple pour constituer une liste d’articles et de prix, une longue liste de bouquins, des références, etc. Dans ce cas, il faut s’armer de patience et user et abuser du copier-coller pour tenter de constituer un tableau formaté qui va inclure toutes les informations dont on a besoin.
Avec le bookmarklet ConvExtra, à condition que les informations à récupérer soient correctement et régulièrement agencées sur une page Web, c’est-à-dire quand les données sont structurées, l’opération peut s’automatiser en quelques clics de souris.
Pour ceux qui l’ignorent, un bookmarklet est un petit programme en JavaScript qui à la manière d’un favori se copie dans la barre d’outils de son navigateur. Un clic sur le bookmarklet permet de l’exécuter.
ConvExtra est gratuit dans le cadre d’une utilisation ne dépassant pas 5000 enregistrements (lignes) extraits par mois. Ensuite différents tarifs s’appliquent allant de $10 par mois à $299 par mois pour 10 000 000 d’extractions. Dans le cadre d’une utilisation personnelle pour extraire les différents tarifs d’un site de commerce électronique la version gratuite est largement suffisante et remplit parfaitement son rôle.
À titre d’exemple, j’ai pu en quelques secondes depuis le site de LDLC extraire toutes les références des cartes mères de marque ASUS avec les références, les prix et les descriptifs dans un tableau Excel parfaitement agencé.

extraire-donnee-page-web

L’utilisation du bookmarklet est très simple. Depuis la page Web après avoir affiché l’information à extraire, de préférence sur une seule page bien qu’il soit possible d’extraire des données sur plusieurs pages consécutives, un clic sur l’icône de ConvExtra permet de lancer l’analyse qui dure quelques secondes. Il faut ensuite cliquer sur la page Web pour indiquer où se trouvent les données structurées : liste d’articles… Les différentes zones sont colorées avec des couleurs distinctes. Le chargement des données est ensuite lancé.
En haut de la fenêtre de résultats, un filtre permet de sélectionner les différentes pages avec en dessous les champs à prendre en compte : désignation, description, prix… en fonction du site Web sur lequel on se trouve.
À partir du menu déroulant, on sélectionne une action à entreprendre : exportation des données au format CSV et/ou mise en place d’un suivi pour suivre les mises à jour d’une page.

extraction-donnees-web

Le quota mensuel restant est indiqué par une jauge en haut de la fenêtre.
À noter que l’enregistrement dans un fichier ne peut se faire qu’après s’être inscrit. On accède alors à son profil à partir duquel on pourra consulter les différentes extractions et voir l’état de son compte.
J’ai sans aucun problème réussi à extraire des informations tarifaires depuis plusieurs sites de commerce en ligne : Amazon, LDLC, Google… et comparer ensuite les données depuis un tableau Excel.

donnees-web-excel

Les personnes devant réaliser des comparaisons de prix entre différents articles depuis un même site devraient trouver une utilité à ConvExtra qui donne d’excellents résultats.

Les commentaires sont fermés.