Nettoyage de fichiers Word en HTML propre

C’est toujours une très mauvaise idée de rédiger un texte avec le traitement de texte Word afin de le copier ensuite vers un système de publication en ligne genre WordPress.

De la même manière, il est très problématique de rédiger un texte sur Word pour le copier vers un système de messagerie ou tout autre logiciel bureautique.

En effet le fichier Word d’origine contient une foultitude de balises de mise en page propres à Microsoft, plus ou moins utiles, qui n’ont pas leur équivalent en HTML, ce qui au moment de la copie du texte bouleverse ou détruit purement et simplement la mise en forme réalisée si péniblement avec Word.

Il convient donc d’effectuer une copie du texte sans formatage et sans caractères parasites pour la plupart invisibles à l’écran.

nettoyage-word-html

Parfois, on n’a pas le choix, il faut donc nettoyer le fichier Word d’origine pour le faire coller aux standards du HTML en respectant le plus possible la mise en page même si elle est complexe.

C’est l’objectif de l’application en ligne Convert to clean HTML dans laquelle on va copier un texte en provenance de Word pour le convertir en sa version HTML que l’on pourra récupérer sur WordPress, Blogger, dans un mail, pour éditer un livre électronique ou tout autre logiciel travaillant en HTML.

Convert to clean HTML supprime les caractères qui ne sont pas valides dans le langage HTML qui est assez strict sur la syntaxe.

Tous les caractères et balises parasites sont éliminés par le convertisseur. Les tableaux sont correctement restitués par l’application.

Après avoir collé le texte depuis Word, il suffit de cliquer sur le bouton Convert to clean html, puis on visualise le code HTML converti, le code Word d’origine et une visualisation du rendu final du code HTML qui a été généré par l’application.

Quelques options sont disponibles sous la forme de cases à cocher :

  • Suppression des paragraphes vides
  • Conversion des balises b en strong et des balises i en em
  • Remplacement des caractères non-ASCII par leurs entités HTML
  • Remplacement des guillemets
  • Indentation avec des tabulations à la place des espaces
  • Remplacement des espaces insécables par des caractères espaces ordinaires

Cet outil en ligne est intégralement gratuit. Il est doté d’une interface utilisateur en anglais.

L’application Convert to clean HTML a été conçue pour nettoyer les documents du traitement de texte Microsoft Word, mais elle peut bien entendu être utilisée pour nettoyer des documents créés à partir de n’importe quelle application bureautique.

3 réflexions au sujet de “Nettoyage de fichiers Word en HTML propre”

  1. oui, c’est utile, car il conserve les balises mais les rend compatibles aux normes HTML
    le bloc note va supprimer la totalité de la mise en page, là où Convert to clean HTML va transformer le formatage MS-Word en balise propres HTML

    par exemple la sortie Word suivante :
    Bonjour comment ça va ?

    sera traduite en :

    Bonjour comment ça va ?

  2. Je n’ai pas l’impression que le bloc-notes conserve la moindre mise en forme.

  3. Vraiment utile ?

    Car depuis longtemps on peut passer en copier/coller d’un fichier Word au Bloc-notes …

Les commentaires sont fermés.