Extraire les images, le texte et polices d’un fichier PDF

Le format PDF est très pratique pour s’échanger des documents de toutes origines.

Ces fichiers sont lisibles avec l’application Adobe Acrobat Reader, mais des alternatives existent.

Techniquement, le Portable Document Format, plus connu sous le nom de PDF est un système de description de pages qui a été créé en 1992 par Adobe, qui est notamment l’éditeur des applications Photoshop et Illustrator.

Nul besoin de disposer d’une panoplie d’applications pour pouvoir lire des documents créés par autrui, ni même de disposer du même type d’ordinateur.

C’est un format multiplateforme qui prend en compte outre le texte, les images, les tableaux, les polices de caractères, la mise en page initiale du document, etc.

L’inconvénient du format PDF, c’est que sans logiciel spécialisé, il n’est pas possible de modifier un document PDF ou d’extraire certaines données qu’il contient.

ExtractPDF est une application en ligne qui s’utilise sans inscription pour extraire d’un fichier PDF qu’on télécharge sur le site les images qui s’y trouvent, ainsi que tout le texte et les polices de caractères utilisées dans le document. La taille du fichier PDF à traiter est limitée à 14 Mo.

Après avoir envoyé le fichier PDF ou indiqué une URL où il se trouve sur un site Web, le résultat de l’extraction est présenté après quelques secondes d’attente.

Pour le test que j’ai réalisé, le traitement a duré une trentaine de secondes pour analyser un fichier PDF de 5 Mo. Les différents éléments ont correctement été extraits.

pdf-extraire-image-texte-font

Après le traitement, toutes les images, le texte et les polices de caractères du document sont affichés dans des onglets différents d’où l’on pourra les récupérer en les téléchargeant.

Les images sont toutes présentées sur la page Images avec la possibilité de les télécharger une à une par un clic droit de souris (ou en cliquant sur une image) ou par lot en téléchargeant toutes les images sous la forme d’un fichier zip en cliquant en haut sur le bouton Download all images as zip file.

Les formats des images (JPEG, PNG…) sont respectés. Les éventuels filtres ne sont pas pris en compte.

pdf-extract

Une partie du texte, les 100 premières lignes extraites du texte, est affichée sur l’onglet Text. Pour récupérer tout le texte du document PDF, cliquer en haut sur le bouton Download result as file.

L’application ExtractPDF n’effectue aucune reconnaissance de caractères (OCR) sur le texte qui se trouve sur les images. Seul le contenu textuel est extrait du fichier PDF d’origine.

Enfin, les polices de caractères trouvées se téléchargent depuis l’onglet Fonts en cliquant sur leur nom.