Une autre façon d’extraire du texte d’un PDF
Espace de stockage gratuit
Avec Google Drive ( http://drive.google.com ) et Microsoft OneDrive ( http://onedrive.live.com ), vous bénéficiez respectivement de 15 Go et 5 Go d’espace de stockage en ligne gratuit pour conserver p.ex. des photos, vidéos et autres documents. Rares sont ceux qui savent que les deux vous donnent aussi la possibilité de récupérer directement le contenu de documents PDF stockés. C’est pratique lorsque vous voulez p.ex. modifier ou copier dans un e-mail un (ou une partie de) texte.
Google Drive
Si vous avez un PDF stocké dans Google Drive, vous retrouvez l’option «Ouvrir avec Google Documents» via le bouton droit de la souris. Dans ce cas, le document est converti en texte grâce à une technologie OCR qui respecte au maximum la présentation originale. Toutefois, quand le fichier comporte des tableaux, graphiques ou images, on les retrouve rarement dans le document converti.
Lors de nos tests, le texte a été extrait quasiment parfaitement du PDF et converti dans un Google Document. Bien sûr, le résultat dépend de la qualité du document source. Vous pouvez ensuite modifier directement le contenu dans l’éditeur de texte, ou le copier dans une autre application.
Microsoft OneDrive
Nous avons réalisé le même test dans Microsoft OneDrive. Vous y utilisez également le bouton droit de la souris pour convertir un PDF en Word (choisissez l’option «Ouvrir dans Word Online»). Dans le nouveau document, vous pouvez ensuite sélectionner et copier le texte. Si vous souhaitez modifier le contenu, vous devez d’abord cliquer sur Convertir et Modifier . Le texte s’affiche ensuite dans l’éditeur de Word Online. Là, vous pouvez continuer d’adapter le contenu à votre guise. Lors de nos tests, la conversion des textes s’est effectuée de façon presque impeccable, mais elle dépend aussi de la qualité du PDF original.
Conseil. Il est rapidement apparu que OneDrive respecte mieux la présentation d’origine d’un PDF que Google Drive. Si vous voulez traiter des documents avec de nombreux éléments graphiques, OneDrive nous semble dès lors le meilleur choix.
Alternatives
Une simple recherche sur Google nous apprend que de nombreux outils en ligne promettent de convertir des PDF en Word. Le résultat s’avère toutefois être une photo du PDF à coller dans le document Word. Ce qui ne vous avance guère, évidemment. Online OCR ( https://www.onlineocr.net/fr/ ) parvient toutefois à extraire le texte d’un PDF via OCR pour le coller dans un fichier Word. La mise en page originale est parfois perdue, mais la qualité du texte converti est très correcte.
Possible avec tous les PDF ?
Il existe deux types de PDF. D’une part, les documents avec une image en guise d’information et, d’autre part, les documents combinant une image avec une couche de texte. Si le PDF est p.ex. une photo ou une numérisation d’un article de journal, il ne s’agit alors que d’une image, sans couche de texte. Lors de nos tests, Google Drive, OneDrive et Online OCR sont néanmoins parvenus aussi à convertir ceux-ci en fichiers de texte.