Récupérer le texte d’un fichier HTML, HTML as Text

Les fichiers HTML sont les constituants principaux des pages Web qu’affichent les navigateurs pour présenter des pages lisibles aux internautes.

htmlastext

Quand on les examine de près, cela ressemble à un fatras de caractères exotiques peu compréhensibles aux non-connaisseurs de ce langage.

La partie lisible des pages Web est dans ce fichier HTML, mais mélangé avec les différentes balises et directives du langage.

Pour récupérer seulement le texte d’un fichier HTML, on peut s’armer de patience et faire fonctionner à plein régime la fonction copier coller sur son ordinateur.

La méthode est artisanale, longue et pénible, elle fonctionne, mais elle est peu efficace.

L’utilitaire portable pour Windows HTML as Text industrialise le processus de récupération de la partie lisible de fichiers HTML : les balises, les scripts… sont supprimés du fichier HTML, seul le texte est conservé.

On lui indique l’emplacement du fichier HTML pour lequel on souhaite extraire le texte, un nom de fichier texte en sortie et c’est tout. Le texte est isolé et présenté selon quelques options de formatage à indiquer dans l’outil : nombre de caractères par ligne, caractère pour les listes, ajout de lignes et de caractères sous les balises (h1 – h6)… Les options de base sont correctes pour obtenir de bon résultats de conversions.

Le programme peut convertir un ou plusieurs fichiers HTML se trouvant dans un même dossier. L’outil s’utilise aussi en ligne de commande pour pouvoir l’intégrer à des scripts.

Source : HTML as Text