Vous avez un document PDF dont vous souhaitez extraire tout le texte? Qu'en est-il des fichiers image d'un document numérisé que vous souhaitez convertir en texte modifiable? Ce sont quelques-uns des problèmes les plus courants que j'ai vus sur le lieu de travail lorsque je travaille avec des fichiers.
Dans cet article, je vais parler de plusieurs façons d'extraire le texte d'un PDF ou d'une image. Les résultats de l'extraction varient en fonction du type et de la qualité du texte du fichier PDF ou de l'image. En outre, vos résultats varient en fonction de l'outil que vous utilisez, il est donc préférable d'essayer le plus grand nombre possible d'options ci-dessous pour obtenir les meilleurs résultats.
Extraire le texte de l'image ou du PDF
Le moyen le plus simple et le plus rapide de commencer est d'essayer un service d'extraction de texte PDF en ligne. Ceux-ci sont normalement gratuits et peuvent vous donner exactement ce que vous cherchez sans avoir à installer quoi que ce soit sur votre ordinateur. En voici deux que j'ai utilisés avec des résultats très bons à excellents:
ExtrairePDF
ExtraitPDF est un outil gratuit pour saisir des images, du texte et des polices dans un fichier PDF. La seule limite est que la taille maximale pour le fichier PDF est de 10 Mo. C'est un peu petit; Donc, si vous avez un fichier plus gros, essayez quelques-unes des autres méthodes ci-dessous. Choisissez votre fichier, puis cliquez sur le bouton Envoyer le fichier. Les résultats sont normalement très rapides et vous devriez voir un aperçu du texte lorsque vous cliquez sur l'onglet Texte.
C'est aussi une bonne idée avantage supplémentaire qu'il extrait aussi des images du fichier PDF, juste au cas où vous en auriez besoin! Dans l'ensemble, l'outil en ligne fonctionne très bien, mais j'ai rencontré quelques documents PDF qui me donnent des résultats amusants. Le texte est extrait très bien, mais pour une raison quelconque, il aura un saut de ligne après chaque mot! Pas un gros problème pour un fichier PDF court, mais certainement un problème pour les fichiers avec beaucoup de texte. Si cela vous arrive, essayez l'outil suivant.
La ROC en ligne
OCR en ligne a généralement tendance à fonctionner pour les documents qui n'ont pas été convertis correctement avec ExtractPDF , donc c'est une bonne idée d'essayer les deux services pour voir lesquels vous donne un meilleur rendement. L'OCR en ligne possède également de plus jolies fonctionnalités qui peuvent s'avérer utiles pour quiconque possède un fichier PDF volumineux qui ne nécessite que la conversion du texte sur quelques pages plutôt que sur l'ensemble du document.
La première chose que vous voulez faire en avant et créer un compte gratuit. C'est un peu ennuyeux, mais si vous ne créez pas le compte gratuit, il ne convertira que partiellement votre PDF plutôt que le document entier. De plus, au lieu de télécharger uniquement un document de 5 Mo, vous pouvez télécharger jusqu'à 100 Mo par fichier avec un compte.
D'abord , choisissez une langue, puis choisissez le type de formats de sortie que vous souhaitez pour le fichier converti. Vous avez quelques options et vous pouvez en choisir plus d'une si vous le souhaitez. Sous Document multipage, vous pouvez sélectionner Numéros de page, puis choisir uniquement les pages que vous souhaitez convertir. Ensuite, vous sélectionnez le fichier et cliquez sur Convertir!
Après la conversion, vous serez redirigé vers la section Documents (si vous êtes connecté) où vous pourrez voir le nombre de pages gratuites disponibles et des liens pour télécharger vos fichiers convertis. Il semble que vous ne disposiez que de 25 pages par jour, donc si vous avez besoin de plus, vous devrez attendre un peu ou acheter plus de pages.
OCR en ligne a fait un excellent travail de conversion mes PDF parce qu'il était capable de maintenir la disposition réelle du texte. Dans mon test, j'ai pris un document Word qui utilisait des puces, différentes tailles de police, etc. et je l'ai converti en PDF. Ensuite, j'ai utilisé Online OCR pour le convertir en format Word et il était à peu près 95% identique à l'original. C'est assez impressionnant pour moi.
De plus, si vous cherchez à convertir une image en texte, Online OCR peut le faire aussi facilement que l'extraction de texte à partir de fichiers PDF.
Gratuit OCR en ligne
Puisque je parlais de l'OCR de l'image au texte, permettez-moi de mentionner un autre bon site Web qui fonctionne très bien sur les images. Free OCR en ligne était très bon et très précis lors de l'extraction du texte de mes images de test. J'ai pris quelques photos de mon iPhone de pages de livres, de brochures, etc. et j'ai été surpris de voir à quel point il était capable de convertir le texte.
Choisissez votre fichier, puis cliquez sur le bouton Télécharger. Sur l'écran suivant, il y a quelques options et un aperçu de l'image. Vous pouvez recadrer si vous ne voulez pas OCR le tout. Puis cliquez simplement sur le bouton OCR et votre texte converti apparaîtra sous l'aperçu de l'image. Il n'y a pas de limite, ce qui est vraiment sympa.
En plus des services en ligne, il y a deux convertisseurs PDF freeware que je veux mentionner au cas où vous auriez besoin d'un logiciel tournant localement sur votre ordinateur pour effectuer les conversions. Avec les services en ligne, vous aurez toujours besoin d'une connexion Internet et cela peut ne pas être possible pour tout le monde. Cependant, j'ai remarqué que la qualité des conversions des programmes freeware était significativement inférieure à celle des sites Web.
Extracteur de texte A-PDF
A-PDF Extracteur de texte est un freeware qui fait un assez bon travail d'extraction de texte à partir de fichiers PDF. Une fois que vous l'avez téléchargé et installé, cliquez sur le bouton Ouvrir pour choisir votre fichier PDF. Ensuite, cliquez sur Extraire le texte pour démarrer le processus.
Il vous demandera un emplacement pour stocker le fichier de sortie de texte, puis il commencera à extraire . Vous pouvez également cliquer sur le bouton Option, ce qui vous permet de sélectionner uniquement certaines pages à extraire et le type d'extraction. La deuxième option est intéressante car elle extrait le texte dans différentes mises en page et vaut la peine d'essayer toutes les trois pour voir celles qui vous donnent le meilleur résultat.
PDF2Text Pilote
PDF2Text Pilote fait un bon travail d'extraction de texte. Il n'a pas d'options; vous ajoutez simplement des fichiers ou des dossiers, convertissez et espérez pour le mieux. Il a bien fonctionné sur certains fichiers PDF, mais pour la majorité d'entre eux, il y avait de nombreux problèmes.
Cliquez simplement sur Ajouter des fichiers puis sur >Convertir. Une fois la conversion terminée, cliquez sur Parcourir pour ouvrir le fichier. Votre kilométrage variera en utilisant ce programme alors n'attendez pas grand chose.
De plus, si vous êtes dans un environnement d'entreprise ou que vous pouvez mettre la main sur Adobe Acrobat, vous pouvez vraiment obtenir de meilleurs résultats. Acrobat n'est évidemment pas gratuit, mais il a des options pour convertir le format PDF en Word, Excel et HTML. Il fait également le meilleur travail de maintenir la structure du document original et de convertir le texte compliqué.