Outils pour utilisateurs

Outils du site


issue95:able2extract

While it is possible to extract text from a PDF using a selection with copy/paste, it doesn’t always work as planned. Also, you can lose formatting. Able2Extract Professional 9 can do all of that and more. Built into the Pro version is a rather impressive OCR feature which can extract text from images. Installing Installing Able2Extract is easy enough. You download the Ubuntu/Debian .DEB file, double-click it and let it install. If you have a key to unlock it then you can enter that after the install. Usage On first use you’re taken step-by-step on how to open a file and convert it to text. In short, you’re working across the menu from left to right. In steps: • Open a file (PDF or text) • Select an area (all or an area) • Select an output format (HTML, image, and LibreOffice Calc and Writer are supported) • Save. Using the OCR took a little while to figure out, but you just convert the image to a PDF, or print the image to a PDF.

Bien qu'il soit possible d'extraire du texte d'un fichier PDF en copiant/collant une sélection, cela ne marche pas toujours comme prévu. En plus, le formatage se perd parfois. Able2Extract Professional 9 peut faire tout cela et encore plus. A l'intérieur de la version Pro a été mis en place un dispositif OCR plutôt impressionnant qui peut extraire du texte des images.

Installation

L'installation de Able2Extract est assez simple. Vous téléchargez le fichier .deb Ubuntu/Debian, vous double-cliquez dessus puis laissez-le s'installer. Si vous avez une clé pour le débloquer, vous pouvez la saisir après l'installation.

Utilisation

À la première utilisation, vous êtes accompagné pas à pas pour ouvrir un fichier et le convertir en texte. En bref, vous parcourez le menu, de gauche à droite.

Les étapes : • Ouvrir un fichier (PDF ou texte) ; • sélectionner une zone (tout ou une zone définie) ; • sélectionner un format de sortie (HTML, image et Calc et Writer de LibreOffice sont supportés) ; • sauvegardez.

L'utilisation de l'OCR demande un temps de compréhension, mais il suffit de convertir l'image en PDF ou d'imprimer l'image dans un PDF.

PDF to Text Upon opening FCM#94 (previous page, top right image) I skipped to page 13 and selected the first three columns of text. This also made it select the image, so I went with that and clicked the OpenOffice (surely it should say LibreOffice?) button. From the popup I clicked the ‘Convert’ button below Writer to get an ODT file. The ODT file was saved then automatically opened in LibreOffice Write. While the output (previous page, bottom right image) isn’t identical to the PDF it has kept the header, and text colours, which is nice. Even the dotted vertical lines were kept. The ‘drop cap on’ did knock it out of whack for those two lines, but the output as a whole is still very usable. One thing I did notice is that even with small PDF files, like FCM (10MB) it takes a few seconds to skip through the PDF. Anyway, getting text from a PDF isn’t that impressive. Time to give the OCR a run for its money.

PDF vers texte

Après avoir ouvert le FCM n° 94 (page précédente, image en haut à droite), j'ai sauté à la page 13 et j'ai sélectionné les trois premières colonnes de texte. L'image a aussi été sélectionnée ; je n'ai pas protesté et j'ai cliqué sur le bouton OpenOffice (ne devrait-on pas dire LibreOffice ?). Dans le pop-up, j'ai cliqué sur le bouton « Convert » sous Writer pour obtenir un fichier ODT.

Le fichier ODT est sauvegardé puis ouvert automatiquement dans LibreOffice Writer.

Bien que la sortie (page précédente, image en bas à droite) ne soit pas identique au PDF, il a conservé l'en-tête et les couleurs du texte, ce qui est bien. Même les lignes verticales pointillées ont été conservées. La lettrine des deux premières lignes a causé quelques dégâts dans ces deux même lignes, mais la sortie dans son ensemble est encore très utilisable.

J'ai remarqué que, même avec des petits fichiers PDF, comme le FCM (10 Mo), il lui faut quelques secondes pour parcourir tout le PDF.

De toutes façons, récupérer le texte d'un PDF n'a rien d'impressionnant. Il est temps que l'OCR montre qu'on en a pour son argent.

Image To Text Seeing that it could do Calc, I decided to get a bit cheeky and convert a table from an image to Calc format. Would it be able to read the text from the image, make it editable and keep it within a decent table format? The answer is a resounding yes! While some text is a bit off, it has to be said that the original was a PDF printed, scanned, and turned into a PDF again, so the quality was a bit ropey. It would certainly be easy to convert that Calc output into a table that would resemble the original. What about an image of text to editable text? Yep! I like how it converts it to editable text, does a good job of it, and even keeps headers in bold. It’s not just a dump of plain text. It really does try to copy the format of the original.

Image vers texte

Voyant qu'il pouvait gérer Calc, j'ai décidé d'être plus pernicieux et de convertir une table contenue dans une image au format Calc.

Sera-t-il capable de lire le texte dans une image, de le rendre modifiable et de le conserver dans un format de table décent ?

La réponse est résolument oui ! Bien que du texte soit un peu détérioré, il faut dire que l'original était un PDF imprimé, scanné et retransformé à nouveau en PDF ; la qualité a quelque peu souffert.

Ce serait certainement facile de convertir cette sortie Calc en une table qui ressemblerait à l'original.

Que devient l'image d'un texte après transformation en texte éditable ?

Oui ! J'aime comment il le convertit en un texte éditable, réalisant un excellent travail en conservant même les en-têtes en gras. Ce n'est pas simplement un paquet en texte brut. Il essaie réellement de copier le format de l'original.

Conclusion Of course, it’s not infallible. Give it a coloured background with white text and I’m pretty sure it’ll fail, but so will the vast majority of OCR applications. I was particularly impressed with how few errors there were in a good quality image to editable text. If you have high quality images that you need converted back to text, then this application is definitely one to consider, and kudos to Investintech for making a Linux version of their app available. Linux System Requirements OS: Linux Fedora 20 or newer, Ubuntu 13.10 or newer, 32-bit edition RAM: 512+ MB of free memory available for the software Hard Drive Space: 250 MB of disk space for the program components Monitor: 1366 (Width) x 768 (Height) screen resolution Download trial from: http://www.investintech.com/prod_downloadsa2e_pro.htm

Conclusion

Bien entendu, il n'est pas infaillible. Donnez-lui un fond coloré avec un texte blanc et je suis à peu près sûr qu'il échouera, tout comme la plupart des applications OCR. J'ai été particulièrement impressionné du peu d'erreurs trouvées dans la conversion d'une image de bonne qualité en texte éditable.

Si vous avez des images de haute qualité que vous voulez reconvertir en texte, alors cette application est réellement une de celles à envisager. Félicitations à Investintech d'avoir publié une version Linux de leur application.

Exigences pour un système Linux

OS : Linux Fedora 20 ou plus récent, Ubuntu 13.10 ou plus récent, en édition 32-bit.

RAM : 512 Mo ou + de mémoire disponible pour le logiciel.

Espace sur le disque dur : 250 Mo d'espace disque pour les composants du programme.

Affichage : Résolution d'écran 1366 (largeur) x 768 (hauteur).

Version d'essai à télécharger sur : http://www.investintech.com/prod_downloadsa2e_pro.htm

COMPETITION: To win one of five life-time keys to Able2Extract Professional 9 all you have to do is answer the following question: What does OCR stand for? Email your answer to: misc@fullcirclemagazine.org Deadline for entries is Sunday 19th April. Five winners will be drawn at random.

CONCOURS :

Pour gagner l'une des cinq clés sans limitation de temps de Able2Extract Professional 9, tout ce que vous avez à faire est de répondre à la question suivante :

Que veut dire OCR ?

Envoyez votre réponse par mail à : misc@fullcirclemagazine.org, au plus tard le dimanche 19 avril.

Cinq gagnants seront tirés au sort.

issue95/able2extract.txt · Dernière modification : 2015/04/18 14:46 de andre_domenech