Vous avez un document PDF ou une image que vous souhaitez convertir en texte? Récemment, quelqu'un m'a envoyé un document dans le courrier que j'avais besoin d'éditer et de renvoyer avec des corrections. La personne n'a pas pu localiser une copie numérique, alors j'ai été chargée de mettre tout ce texte en format numérique.
Il était hors de question que je passe des heures à tout taper, alors j'ai fini par prendre Une belle image de haute qualité du document, puis je me suis frayé un chemin à travers un ensemble de services OCR en ligne pour voir lequel me donnerait les meilleurs résultats.
Dans cet article, je vais passer par un couple de mes sites préférés pour OCR qui sont gratuits. Il convient de noter que la plupart de ces sites offrent un service gratuit de base et ont ensuite des options payantes si vous voulez des fonctionnalités supplémentaires comme des images plus grandes, des documents PDF multi-pages, différentes langues d'entrée, etc.
sachez à l'avance que la plupart de ces services ne pourront pas correspondre au formatage de votre document original. Ce sont principalement pour l'extraction de texte et c'est tout. Si vous avez besoin que tout soit dans une mise en page ou un format spécifique, vous devrez le faire manuellement une fois que vous aurez reçu tout le texte de l'OCR.
De plus, les meilleurs résultats pour obtenir le texte viendront à partir de documents avec une résolution de 200 à 400 DPI. Si vous avez une image PPP faible, les résultats ne seront pas aussi bons.
Enfin, il y avait beaucoup de sites que j'ai testés qui ne fonctionnaient pas. Si vous accédez à Google OCR en ligne gratuitement, vous verrez un tas de sites, mais plusieurs des sites figurant dans les 10 premiers résultats n'ont même pas terminé la conversion. Certains expiraient, d'autres donnaient des erreurs et d'autres restaient bloqués sur la page "conversion", donc je n'ai même pas pris la peine de mentionner ces sites.
Pour chaque site, j'ai testé deux documents pour voir comment bien la sortie serait. Pour mes tests, j'ai simplement utilisé mon iPhone 5S pour prendre une photo des deux documents et ensuite les télécharger directement sur les sites Web pour la conversion.
Au cas où vous voulez voir à quoi ressemblaient les images que j'ai utilisées pour mon test, je les ai joint ici: Test1 et Test2. Notez que ce ne sont pas les versions en résolution complète des images prises depuis le téléphone. J'ai utilisé l'image en pleine résolution lors du téléchargement sur les sites.
OnlineOCR
OnlineOCR.net est un site propre et simple qui a donné de très bons résultats dans mon test. La principale chose que j'aime à ce sujet est qu'il n'a pas des tonnes de publicités partout, ce qui est généralement le cas avec ces types de sites de services de niche.
Pour commencer, sélectionnez votre fichier et attendez la fin du téléchargement. La taille de téléchargement maximale pour ce site est de 100 Mo. Si vous vous inscrivez pour un compte gratuit, vous obtenez quelques fonctionnalités supplémentaires comme la plus grande taille de téléchargement, plusieurs pages PDF, différentes langues d'entrée, plus de conversions par heure, etc.
Ensuite, choisissez votre langue d'entrée et puis choisissez le format de sortie. Vous pouvez choisir parmi Word, Excel ou Texte brut. Cliquez sur le bouton Convertir. Le texte affiché en bas de la boîte s'affiche en même temps qu'un lien de téléchargement.
Si vous ne voulez que du texte, copiez-le et collez-le dans la boîte. Cependant, je vous suggère de télécharger le document Word parce qu'il fait un excellent travail de conserver la mise en page du document original.
Par exemple, lorsque j'ai ouvert le document Word pour mon deuxième test, j'ai été surpris trouver que le document comprenait une table avec trois colonnes, tout comme dans l'image.
Sur tous les sites, celui-ci était le meilleur de loin. Cela vaut vraiment la peine de vous inscrire si vous avez besoin de beaucoup de conversions.
Pour être complet, je vais également créer un lien vers les fichiers de sortie créés par chaque service afin que vous puissiez voir les résultats par vous-même. Voici les résultats de OnlineOCR: Test1 Doc et Test2 Doc.
Notez que lorsque vous ouvrez ces documents Word sur votre ordinateur, vous recevez un message Le mot indiquant qu'il provient d'Internet et l'édition a été désactivé. Cela est parfaitement correct car Word ne fait pas confiance aux documents provenant d'Internet et vous n'avez pas vraiment besoin d'activer l'édition si vous voulez simplement voir le document.
i2OCR
Un autre site a donné de très bons résultats était i2OCR. Le processus est très similaire: choisissez votre langue, votre fichier, puis appuyez sur Extraire le texte.
faut attendre une minute ou deux ici car ce site prend un peu plus de temps. En outre, à l'étape 2, assurez-vous que votre image est affichée dans l'aperçu, sinon vous obtiendrez un tas de charabia comme résultat. Pour une raison quelconque, les images de mon iPhone s'affichaient en mode portrait sur mon ordinateur, mais en mode paysage lorsque j'ai téléchargé sur ce site.
I a dû ouvrir manuellement l'image dans une application de retouche photo, le faire pivoter de 90 degrés, puis le faire revenir à portrait, puis enregistrez-le à nouveau. Une fois terminé, faites défiler vers le bas et il vous montrera un aperçu du texte avec un bouton de téléchargement.
Ce site s'est plutôt bien comporté avec la sortie pour le premier test, mais ne l'a pas bien fait avec le deuxième test qui avait la disposition des colonnes. Voici les résultats de i2OCR: Test1 Doc et Test2 Doc.
FreeOCR
Free-OCR.com vos images et convertissez-les en texte brut. Il n'a pas d'option pour exporter au format Word. Choisissez votre fichier, sélectionnez une langue, puis cliquez sur Démarrer.
Le site est rapide et vous obtiendrez la sortie assez rapidement. Il suffit de cliquer sur le lien pour télécharger le fichier texte sur votre ordinateur.
Comme pour NewOCR mentionné ci-dessous, ce site capitalise tous les T dans le document. Je ne sais pas pourquoi ça ferait ça, mais pour une raison étrange ce site et NewOCR l'ont fait tous les deux. Ce n'est pas une grosse affaire de le changer, mais c'est un processus fastidieux que vous ne devriez vraiment pas avoir à faire.
Voici les résultats de FreeOCR: Test1 Doc et Test2 Doc.
ABBYY FineReader Online
Pour utiliser FineReader en ligne, vous devez vous inscrire à un compte qui vous rapporte 15 jours essai gratuit à OCR jusqu'à 10 pages gratuitement. Si vous avez seulement besoin de faire une OCR unique pour quelques pages, vous pouvez utiliser ce service. Assurez-vous de cliquer sur le lien de vérification dans l'e-mail de confirmation après votre inscription.
Cliquez sur Reconnaîtreen haut, puis sur Téléchargerpour sélectionner votre fichier. Choisissez votre langue, le format de sortie, puis cliquez sur Reconnaîtreen bas. Ce site a une interface propre et pas de publicité.
Dans mes tests, ce site a pu saisir le texte du premier document de test, mais c'était absolument énorme quand j'ai ouvert le document Word, donc je J'ai fini par recommencer et j'ai choisi le texte brut comme format de sortie.
Pour le deuxième test avec les colonnes, le document Word était vide et je n'ai même pas trouvé le texte. Je ne sais pas ce qui s'est passé là-bas, mais il ne semble pas être capable de gérer autre chose que de simples paragraphes. Voici les résultats de FineReader: Test1 Doc et Test2 Doc.
NewOCR
Le site suivant, NewOCR.com, était OK, mais pas aussi bon que le premier site. Premièrement, il y a des publicités, mais heureusement pas une tonne. Vous devez d'abord sélectionner votre fichier, puis cliquer sur le bouton Aperçu.
Vous pouvez ensuite faire pivoter l'image et ajuster le zone où vous souhaitez rechercher du texte. C'est un peu comme la façon dont le processus de numérisation fonctionne sur un ordinateur avec un scanner attaché.
Si le document a plusieurs colonnes, vous pouvez cochez le bouton Analyse de la mise en pagepour essayer de diviser le texte en colonnes. Cliquez sur le bouton OCR, attendez quelques secondes pour qu'il se termine, puis faites défiler vers le bas lorsque la page est actualisée.
Dans le premier test, il a tout le texte correctement, mais pour une raison quelconque T dans le document! Aucune idée pourquoi ça ferait ça, mais ça l'a fait. Dans le deuxième test avec l'analyse de page activée, il a obtenu la plupart du texte, mais la mise en page était complètement désactivée.
Voici les résultats de NewOCR: Test1 Doc et Test2 Doc.
Conclusion
Comme vous pouvez le voir, le free ne vous donne pas vraiment de très bons résultats la plupart du temps malheureusement. Le premier site mentionné est de loin le meilleur parce que non seulement il a fait un excellent travail de reconnaissance de tout le texte, mais il a également réussi à conserver le format du document original.
Si vous avez juste besoin de texte, , la plupart des sites ci-dessus devraient être en mesure de le faire pour vous. Si vous avez des questions, n'hésitez pas à commenter. Profitez-en!