Comment récupérer tout le texte d’un fichier PDF

Dans mon billet consacré aux utilitaires et applications Web pour convertir un fichier PDF en document Word éditable puis modifiable (Compilation de programmes gratuits pour convertir un PDF en document Word), j’ai présenté un grand nombre de solutions logicielles pour récupérer l’intégralité d’un document PDF en respectant au mieux sa mise en page initiale (texte, colonnes, images, tableaux…).
Parfois, on a simplement besoin de ne récupérer que le texte d’un fichier PDF en éliminant à la fois sa mise en page et tous les autres éléments qui s’y trouvent. Dans ce cas, seul le texte compte, le reste peut être supprimé, car dans ce cas de figure, il n’est pas important pour vous.
Pour parvenir à ses fins, le copier-coller n’étant pas très efficace dans ce cas de figure, on peut se tourner vers l’un des nombreux utilitaires de manipulation de fichiers PDF qui intègrent cette fonctionnalité, mais il existe un moyen de faire beaucoup plus simple de le faire, car cette récupération de texte est prévue nativement dans le logiciel de lecture de fichiers PDF Adobe Reader qui est installé sur la grande majorité des ordinateurs PC ou Mac.
Après avoir ouvert le fichier PDF pour lequel on a besoin d’extraire le texte, aller dans le menu Fichier, d’Adobe Reader et choisir l’option Enregistrer sous un autre… puis sélectionner Texte… dans le sous-menu qui s’affiche.

extraire-texte-fichier-pdf

Un dialogue classique « Enregistrer sous » apparaît avec le nom du fichier Texte pré renseigné à sauvegarder. Il ne reste plus qu’à choisir l’emplacement du dossier de destination et de cliquer pour finir sur le bouton Enregistrer. Selon la taille de fichier PDF, l’extraction du texte peut durer de quelques secondes à quelques minutes ; une barre de progression indique l’avancée de l’opération en cours.
Un fichier texte standard brut est alors généré qui contient l’intégralité du texte du fichier PDF d’origine sans le moindre formatage, ni image.

Les commentaires sont fermés.