Outils pour utilisateurs

Outils du site


issue95:able2extract

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
issue95:able2extract [2015/04/07 17:57] – créée auntieeissue95:able2extract [2015/04/18 14:46] (Version actuelle) andre_domenech
Ligne 1: Ligne 1:
-While it is possible to extract text from a PDF using a selection with copy/paste, it doesn’t always work as planned. Also, you can lose formatting. Able2Extract Professional 9 can do all of that and more. Built into the Pro version is a rather impressive OCR feature which can extract text from images.+**While it is possible to extract text from a PDF using a selection with copy/paste, it doesn’t always work as planned. Also, you can lose formatting. Able2Extract Professional 9 can do all of that and more. Built into the Pro version is a rather impressive OCR feature which can extract text from images.
  
 Installing Installing
Ligne 15: Ligne 15:
 • Save. • Save.
  
-Using the OCR took a little while to figure out, but you just convert the image to a PDF, or print the image to a PDF.+Using the OCR took a little while to figure out, but you just convert the image to a PDF, or print the image to a PDF.**
  
-PDF to Text+Bien qu'il soit possible d'extraire du texte d'un fichier PDF en copiant/collant une sélection, cela ne marche pas toujours comme prévu. En plus, le formatage se perd parfois. Able2Extract Professional 9 peut faire tout cela et encore plus. A l'intérieur de la version Pro a été mis en place un dispositif OCR plutôt impressionnant qui peut extraire du texte des images. 
 + 
 +Installation 
 + 
 +L'installation de Able2Extract est assez simple. Vous téléchargez le fichier .deb Ubuntu/Debian, vous double-cliquez dessus puis laissez-le s'installer. Si vous avez une clé pour le débloquer, vous pouvez la saisir après l'installation. 
 + 
 +Utilisation 
 + 
 +À la première utilisation, vous êtes accompagné pas à pas pour ouvrir un fichier et le convertir en texte. En bref, vous parcourez le menu, de gauche à droite. 
 + 
 +Les étapes : 
 +• Ouvrir un fichier (PDF ou texte) ; 
 +• sélectionner une zone (tout ou une zone définie) ; 
 +• sélectionner un format de sortie (HTML, image et Calc et Writer de LibreOffice sont supportés) ; 
 +• sauvegardez. 
 + 
 +L'utilisation de l'OCR demande un temps de compréhension, mais il suffit de convertir l'image en PDF ou d'imprimer l'image dans un PDF. 
 + 
 +**PDF to Text
  
 Upon opening FCM#94 (previous page, top right image) I skipped to page 13 and selected the first three columns of text. This also made it select the image, so I went with that and clicked the OpenOffice (surely it should say LibreOffice?) button. From the popup I clicked the ‘Convert’ button below Writer to get an ODT file. Upon opening FCM#94 (previous page, top right image) I skipped to page 13 and selected the first three columns of text. This also made it select the image, so I went with that and clicked the OpenOffice (surely it should say LibreOffice?) button. From the popup I clicked the ‘Convert’ button below Writer to get an ODT file.
Ligne 27: Ligne 45:
 One thing I did notice is that even with small PDF files, like FCM (10MB) it takes a few seconds to skip through the PDF. One thing I did notice is that even with small PDF files, like FCM (10MB) it takes a few seconds to skip through the PDF.
  
-Anyway, getting text from a PDF isn’t that impressive. Time to give the OCR a run for its money.+Anyway, getting text from a PDF isn’t that impressive. Time to give the OCR a run for its money.**
  
-Image To Text+PDF vers texte 
 + 
 +Après avoir ouvert le FCM n° 94 (page précédente, image en haut à droite), j'ai sauté à la page 13 et j'ai sélectionné les trois premières colonnes de texte. L'image a aussi été sélectionnée ; je n'ai pas protesté et j'ai cliqué sur le bouton OpenOffice (ne devrait-on pas dire LibreOffice ?). Dans le pop-up, j'ai cliqué sur le bouton « Convert » sous Writer pour obtenir un fichier ODT. 
 + 
 +Le fichier ODT est sauvegardé puis ouvert automatiquement dans LibreOffice Writer. 
 + 
 +Bien que la sortie (page précédente, image en bas à droite) ne soit pas identique au PDF, il a conservé l'en-tête et les couleurs du texte, ce qui est bien. Même les lignes verticales pointillées ont été conservées. La lettrine des deux premières lignes a causé quelques dégâts dans ces deux même lignes, mais la sortie dans son ensemble est encore très utilisable. 
 + 
 +J'ai remarqué que, même avec des petits fichiers PDF, comme le FCM (10 Mo), il lui faut quelques secondes pour parcourir tout le PDF. 
 + 
 +De toutes façons, récupérer le texte d'un PDF n'a rien d'impressionnant. Il est temps que l'OCR montre qu'on en a pour son argent. 
 + 
 +**Image To Text
  
 Seeing that it could do Calc, I decided to get a bit cheeky and convert a table from an image to Calc format. Seeing that it could do Calc, I decided to get a bit cheeky and convert a table from an image to Calc format.
Ligne 43: Ligne 73:
 Yep! Yep!
  
-I like how it converts it to editable text, does a good job of it, and even keeps headers in bold. It’s not just a dump of plain text. It really does try to copy the format of the original.+I like how it converts it to editable text, does a good job of it, and even keeps headers in bold. It’s not just a dump of plain text. It really does try to copy the format of the original.**
  
-Conclusion+Image vers texte 
 + 
 +Voyant qu'il pouvait gérer Calc, j'ai décidé d'être plus pernicieux et de convertir une table contenue dans une image au format Calc. 
 + 
 +Sera-t-il capable de lire le texte dans une image, de le rendre modifiable et de le conserver dans un format de table décent ? 
 + 
 +La réponse est résolument oui ! Bien que du texte soit un peu détérioré, il faut dire que l'original était un PDF imprimé, scanné et retransformé à nouveau en PDF ; la qualité a quelque peu souffert. 
 + 
 +Ce serait certainement facile de convertir cette sortie Calc en une table qui ressemblerait à l'original. 
 + 
 +Que devient l'image d'un texte après transformation en texte éditable ? 
 + 
 +Oui ! J'aime comment il le convertit en un texte éditable, réalisant un excellent travail en conservant même les en-têtes en gras. Ce n'est pas simplement un paquet en texte brut. Il essaie réellement de copier le format de l'original. 
 + 
 + 
 +**Conclusion
  
 Of course, it’s not infallible. Give it a coloured background with white text and I’m pretty sure it’ll fail, but so will the vast majority of OCR applications. I was particularly impressed with how few errors there were in a good quality image to editable text. Of course, it’s not infallible. Give it a coloured background with white text and I’m pretty sure it’ll fail, but so will the vast majority of OCR applications. I was particularly impressed with how few errors there were in a good quality image to editable text.
Ligne 61: Ligne 106:
 Monitor: 1366 (Width) x 768 (Height) screen resolution Monitor: 1366 (Width) x 768 (Height) screen resolution
  
-Download trial from: http://www.investintech.com/prod_downloadsa2e_pro.htm+Download trial from: http://www.investintech.com/prod_downloadsa2e_pro.htm**
  
 +Conclusion
  
-COMPETITION:+Bien entendu, il n'est pas infaillible. Donnez-lui un fond coloré avec un texte blanc et je suis à peu près sûr qu'il échouera, tout comme la plupart des applications OCR. J'ai été particulièrement impressionné du peu d'erreurs trouvées dans la conversion d'une image de bonne qualité en texte éditable. 
 + 
 +Si vous avez des images de haute qualité que vous voulez reconvertir en texte, alors cette application est réellement une de celles à envisager. Félicitations à Investintech d'avoir publié une version Linux de leur application. 
 + 
 + 
 +Exigences pour un système Linux 
 + 
 +OS : Linux Fedora 20 ou plus récent, Ubuntu 13.10 ou plus récent, en édition 32-bit. 
 + 
 +RAM : 512 Mo ou + de mémoire disponible pour le logiciel. 
 + 
 +Espace sur le disque dur : 250 Mo d'espace disque pour les composants du programme. 
 + 
 +Affichage : Résolution d'écran 1366 (largeur) x 768 (hauteur). 
 + 
 +Version d'essai à télécharger sur : http://www.investintech.com/prod_downloadsa2e_pro.htm 
 + 
 + 
 +**COMPETITION:
  
 To win one of five life-time keys to Able2Extract Professional 9 all you have to do is answer the following question: To win one of five life-time keys to Able2Extract Professional 9 all you have to do is answer the following question:
Ligne 72: Ligne 136:
 Email your answer to: misc@fullcirclemagazine.org Email your answer to: misc@fullcirclemagazine.org
  
-Deadline for entries is Sunday 19th April. Five winners will be drawn at random.+Deadline for entries is Sunday 19th April. Five winners will be drawn at random.** 
 + 
 +CONCOURS : 
 + 
 +Pour gagner l'une des cinq clés sans limitation de temps de Able2Extract Professional 9, tout ce que vous avez à faire est de répondre à la question suivante : 
 + 
 +Que veut dire OCR ? 
 + 
 +Envoyez votre réponse par mail à : misc@fullcirclemagazine.org, au plus tard le dimanche 19 avril. 
 + 
 +Cinq gagnants seront tirés au sort.
issue95/able2extract.1428422251.txt.gz · Dernière modification : 2015/04/07 17:57 de auntiee