SERVICES EN LIGNE - OFFICE EN LIGNE - 21.06.2018

Une autre façon d’extraire du texte d’un PDF

Imaginons que vous vouliez extraire le contenu d’un document PDF sauvegardé, sans devoir recourir à une application spéciale. Comment les disques cloud connus Microsoft OneDrive ou Google Drive peuvent-ils vous y aider ?

Espace de stockage gratuit

Avec Google Drive ( http://drive.google.com ) et Microsoft OneDrive ( http://onedrive.live.com ), vous bénéficiez respectivement de 15 Go et 5 Go d’espace de stockage en ligne gratuit pour conserver p.ex. des photos, vidéos et autres documents. Rares sont ceux qui savent que les deux vous donnent aussi la possibilité de récupérer directement le contenu de documents PDF stockés. C’est pratique lorsque vous voulez p.ex. modifier ou copier dans un e-mail un (ou une partie de) texte.

Google Drive

Si vous avez un PDF stocké dans Google Drive, vous retrouvez l’option «Ouvrir avec Google Documents» via le bouton droit de la souris. Dans ce cas, le document est converti en texte grâce à une technologie OCR qui respecte au maximum la présentation originale. Toutefois, quand le fichier comporte des tableaux, graphiques ou images, on les retrouve rarement dans le document converti.

Lors de nos tests, le texte a été extrait quasiment parfaitement du PDF et converti dans un Google Document. Bien sûr, le résultat dépend de la qualité du document source. Vous pouvez ensuite modifier directement le contenu dans l’éditeur de texte, ou le copier dans une autre application.

Microsoft OneDrive

Nous avons réalisé le même test dans Microsoft OneDrive. Vous y utilisez également le bouton droit de la souris pour convertir un PDF en Word (choisissez l’option «Ouvrir dans Word Online»). Dans le nouveau document, vous pouvez ensuite sélectionner et copier le texte. Si vous souhaitez modifier le contenu, vous devez d’abord cliquer sur Convertir et Modifier . Le texte s’affiche ensuite dans l’éditeur de Word Online. Là, vous pouvez continuer d’adapter le contenu à votre guise. Lors de nos tests, la conversion des textes s’est effectuée de façon presque impeccable, mais elle dépend aussi de la qualité du PDF original.

Conseil.  Il est rapidement apparu que OneDrive respecte mieux la présentation d’origine d’un PDF que Google Drive. Si vous voulez traiter des documents avec de nombreux éléments graphiques, OneDrive nous semble dès lors le meilleur choix.

Alternatives

Une simple recherche sur Google nous apprend que de nombreux outils en ligne promettent de convertir des PDF en Word. Le résultat s’avère toutefois être une photo du PDF à coller dans le document Word. Ce qui ne vous avance guère, évidemment. Online OCR ( https://www.onlineocr.net/fr/ ) parvient toutefois à extraire le texte d’un PDF via OCR pour le coller dans un fichier Word. La mise en page originale est parfois perdue, mais la qualité du texte converti est très correcte.

Possible avec tous les PDF ?

Il existe deux types de PDF. D’une part, les documents avec une image en guise d’information et, d’autre part, les documents combinant une image avec une couche de texte. Si le PDF est p.ex. une photo ou une numérisation d’un article de journal, il ne s’agit alors que d’une image, sans couche de texte. Lors de nos tests, Google Drive, OneDrive et Online OCR sont néanmoins parvenus aussi à convertir ceux-ci en fichiers de texte.

Utilisez Microsoft OneDrive ou Google Drive pour convertir de manière plus que correcte le contenu de PDF en fichiers de texte que vous pouvez modifier. C’est OneDrive qui respecte le mieux la mise en page des documents originaux.

Contact

Larcier-Intersentia | Tiensesteenweg 306 | 3000 Louvain

Tél. : 0800 39 067 | Fax : 0800 39 068

contact@larcier-intersentia.com | www.larcier-intersentia.com

 

Siège social

Lefebvre Sarrut Belgium SA | Rue Haute, 139 - Boîte 6 | 1000 Bruxelles

RPM Bruxelles | TVA BE 0436.181.878