XL 2019 PDF vers Excel

Amilo

XLDnaute Accro
Bonjour le forum,

J'ai un fichier pdf de plus 300 pages obtenu après numérisation via l'imprimante.
Chaque page du fichier pdf correspond à une facture classique comportant une seule page
Il y a donc plus de 300 factures scannées dans le même pdf.

Je souhaiterais exporter vers Excel, certaines informations seulement,
Celles-ci sont présentées sur la facture sous forme d'un tableau de 6 colonnes, avec leur titres et une ligne de valeurs correspondantes.
(Je rentre un peu dans les détails et désolé si toutes ces précisions ne sont pas forcément nécessaires)

Sinon, j'ai consulté notamment 2 liens sur ce forum : Lien1 et Llien2 mais sans succès.
Par contre, je n'ai pas souhaité pour l'instant installer et utiliser l'application PDFtoText

J'ai testé sinon :
- la solution #2 du Lien1 pour exporter le pdf en texte mais cela me génère d'emblée un fichier nommé "Essai.txt" qui est vierge.
- une solution avec Power BI mais là non plus, il ne trouve aucune données.
- un export du pdf vers Excel à l'aide de Adobe Acrobat puis le chargement dans un autre fichier Excel via Power query. Le résultat n'est pas trop mal mais certaines pages ne sont visiblement pas passées dans Excel et il manque parfois des informations du tableau

Pour information :
- je possède Adobe Acrobat XI Pro,
- les factures ont été scannées au format .pdf par défaut mais l'imprimante permet une multitude d'autres versions de .pdf
- j'ai Excel 2019 Pro Plus (64 bits) et 2016 Pro Plus (32bits)

Avez-vous svp d'autres propositions ou solutions que je pourrais tester ?

Merci d'avance pour votre aide

Cordialement
 
Dernière édition:

kiki29

XLDnaute Barbatruc
Salut,
VB:
Par contre, je n'ai pas souhaité pour l'instant installer et utiliser l'application PDFtoText
eh bien il ne reste plus qu'à le faire !
Un échantillon de ce pdf récalcitrant serait intéressant à voir.
 
Dernière édition:

Staple1600

XLDnaute Barbatruc
Bonjour le fil

[Pour infos]
J'ai un fichier pdf de plus 300 pages obtenu après numérisation via l'imprimante.
Moi aussi, j'en bouffe du PDF à longueur de journée
Avec parfois des PDF de 800 pages et plus.
Et sur l'imprimante, j'ai une option: PDF requêtable
(c'est à dire que quand je l'ouvre dans le Reader, je peux faire une recherche textuelle)
Si par malheur, un collègue change le paramètre, je me retrouve avec un PDF scanné comme une image.
Ce qui fait qu'il n'est plus requêtable et que si je fais Enregistrer au format texte, j'obtiens comme toi un fichier vide.
 

Amilo

XLDnaute Accro
Bonsoir kiki29, staple1600,

Merci pour vos réponses,

@kiki29 , je testerai bien le logiciel avec une version portable (s'il existe), s'il est fiable ou sécurisé au niveau données confidentielles.
Je ne pourrai pas l'installer au travail en tout cas.
Sinon, pour un échantillon, ce ne sera malheureusement pas possible en raison de la confidentialité.

@Staple1600 , merci pour cette précision,
j'ai détaillé la manière dont j'obtenais le pdf car j'avais effectivement un doute sur le format par défaut,
Comme vous l'indiquez celui-ci est semblable à une image et donc probablement plus récalcitrant aux transformations.

Je ferai un test lundi prochain en sélectionnant une autre version de .pdf ou la bonne option.
Sinon Adobe Acrobat permet de transformer un pdf en document OCR mais je ne vais pas l'appliquer à plus de 300 pages.
Je vais tester déjà à l'imprimante, je pense que c'est une bonne piste.

Merci encore à vous

Bonne nuit
 
Dernière édition:

Amilo

XLDnaute Accro
Bonsoir le forum, kiki29, Staple1600,

J'ai scanné mes factures aujourd'hui en sélectionnant l'option "PDF/A permettant les recherches (ROC)"
mais il y avait également notamment les choix suivants :
- "PDF pour recherches", "XPS", "Texte (ROC)", "Texte-unicod (ROC)", "RTF (ROC)", "CSV (ROC)", "HTML (ROC)", "PDF/A (archivable)".....etc mais les autres concernent les images en "JPEG" ou "TIFF"

Mais je me pose la question, s'il n'y avait pas un meilleur choix que celui que j'ai pris !!
Je ne voulais pas commencer à numériser dans chacun des formats.

Sinon pour le résultat avec mon choix, j'arrive à exploiter le fichier pdf avec Power BI et à générer un fichier texte complet avec le code VBA dans le 1er lien ci-dessous posté par kiki29

Par contre, dans le 2ème lien permettant la récupération du texte du pdf dans une feuille Excel, j'ai une erreur "Variable non définie"pour la ligne : ShTest

J'ai ajouté à tout hasard un : "DIM ShTest As Object" dans la déclaration mais sans succès.


Sauvegarder un fichier PDF au format TEXTE via VBA Excel
Récupérer le texte d'un fichier PDF dans une feuille Excel

Cordialement
 

Amilo

XLDnaute Accro
Re,

Merci Staple1600 pour votre retour, en effet cela a changé la donne et merci encore, je vais donc rester sur ce format,

L'utilisation de Power BI était un essai perso que j'avais évoqué dans mon 1er message et qui ne fonctionnait pas initialement.
Cela fonctionne désormais avec le nouveau format .pdf, j'arrive donc à récupérer le texte mais j'ai pas mal de boulot pour son retraitement et le réorganiser en code M comme dans Power query.

Cordialement
 

Amilo

XLDnaute Accro
Re,

Vous avez raison, la phrase est mal écrite, on penserait que les 2 tests sont liés alors que ce sont 2 essais distincts sans aucun lien ;)

Edit : pour résumer, Power BI ainsi que le code VBA à kiki29 reconnaissent désormais le .pdf avec ce nouveau format.

Cordialement
 

Amilo

XLDnaute Accro
Re,
Oui j'ai Acrobat Pro au travail et sur mon PC perso,
Effectivement, au travail il nous faut aussi justifier le besoin et de l'utilisation effective de l'application en raison des licences.
Cordialement
 
Dernière édition:

Discussions similaires

Réponses
1
Affichages
370
Réponses
0
Affichages
200

Statistiques des forums

Discussions
311 720
Messages
2 081 926
Membres
101 842
dernier inscrit
seb0390