extraire des données word ou pdf vers une base de données excel

besdu06

XLDnaute Nouveau
Bonjour,

J'ai plusieurs documents, plus précisément des arrêtés. Je voudrais extraire certaines données "noyées" dans le texte vers une base de données Excel. La difficulté c'est que j'ai 1500 arrêtés!! Je dois trouver le moyen d'extraire ces informations de tous ces arrêtés automatiquement.

Voici un exemple visible ci dessous :

" Par arrêté de la ministre de l'écologie, du développement durable, des transports et du logement et du ministre auprès de la ministre de l'économie, des finances et de l'industrie, chargé de l'industrie, de l'énergie et de l'économie numérique, en date du 19 avril 2011, la SAS Q-Cells Meaux Solaire, dont le siège social est situé tour Part-Dieu, 129, rue Servient, 69326 Lyon Cedex 03, est autorisée à exploiter une installation photovoltaïque, d'une capacité de production de 11,15 MWc, localisée lieudit Le Fonds des Carrières, La Pièce aux Cannes, 77100 Meaux. Cette autorisation ne dispense pas son bénéficiaire d'obtenir les titres requis par d'autres législations. "



Tout ce qui est en rouge doit se retrouver dans une base de donnée dont les champs devrons êtres: "date d'arrêté", "nom société", "siège social", "adresse", "code postal", "type énergie", "puissance/ capacité de production", "lieu dit", "adresse du site géographique"...

De plus cette opération doit se faire pour plusieurs centaines de fichiers word (ou pdf) de même format sauf que biensur l'information en rouge change afin de pouvoir remplir ma base de données.

J'espère que vous pourrez trouver une solution parce que là je sais plus quoi faire et l'échéance approche bientôt!!!!

merci pour tout;)
 

Hippolite

XLDnaute Accro
Re : extraire des données word ou pdf vers une base de données excel

Bonjour,
Toute la diffficulté repose sur la détermination d'invariants qui permettront de définir une logique d'extraction des chaînes de caractères voulus : invariants pour sélectionner le paragraphe à traiter puis pour le traiter.
Si tu trouves ces invariants, il sera possible de programmer quelque chose pour les données word (pour pdf il faudra voir).
A+
 

besdu06

XLDnaute Nouveau
Re : extraire des données word ou pdf vers une base de données excel

oulala moi je m'y connais pas trop en programmation :(

L'idéal ca serai peut etre un exemple quelque chose que je puisse suivre "à la lettre"...

Merci quand meme pour ton aide...
 

Hippolite

XLDnaute Accro
Re : extraire des données word ou pdf vers une base de données excel

Re,
Trouve les invariants communs à tous les fichiers et qui serviront de balises d'extraction.
C'est ça la difficulté et c'est à toi de trouver (ce devrait être facile si les textes ont été rédigés à partir d'un canevas type, sinon c'est mal parti)
Il y aura toujours quelqu'un sur le forum pour t'aider pour le reste.
A+
 

MJ13

XLDnaute Barbatruc
Re : extraire des données word ou pdf vers une base de données excel

Bonjour à tous


Bon, pour le fichier, je crois qu'on peut faire une croix dessus :eek:.

Sinon il faudrait au moins dire si tu as acrobat pour pouvoir tester le lien de kiki29 :).
 

MJ13

XLDnaute Barbatruc
Re : extraire des données word ou pdf vers une base de données excel

Re

Bon voici un test à faire avec Adobe Reader. Je n'ai fait que la partie import d'un fichier test pour test :eek:.
Il faut copier le fichier test.pdf dans C:\.

Après il faudrait faire la liste à importer (nombreux codes sur le forum) et enfin le plus dur sera de trouver tous les éléments (voir peut-être Jean-Noël (JNP) avec son Reggae pour les experts ou Regexp ;)).

Bon courage :).
 

Pièces jointes

  • TestPDFImporte.zip
    86.4 KB · Affichages: 414

jp14

XLDnaute Barbatruc
Re : extraire des données word ou pdf vers une base de données excel

Bonjour

Le plus simple dans un premier temps serait de faire les opérations manuellement pour déterminer si on à un mécanisme identique pour l'ensemble des documents.

Utiliser la fonction rechercher remplacer de word pour supprimer du texte comme "Par arrêté ... l'économie numérique," mettre des séparateurs (tabulation) pour isoler les zones désirées par exemple recherche de : en date du et remplacer cette valeur par une tabulation.
Ensuite sauvegarder le fichier en TXT el l'ouvrir sous Excel et indiquant comme séparateur la tabulation.
Il faudra vérifier si les données d'une colonne sont de même nature.
La fonction rechercher remplacer facilitera la suppression du texte inutile.
La décomposition des adresses sera facilité par l’existence d'un séparateur : ","

Cette méthode peut s'automatiser en créant des macros avec l'enregistreur de macro.


JP
 

besdu06

XLDnaute Nouveau

besdu06

XLDnaute Nouveau
Re : extraire des données word ou pdf vers une base de données excel

Bonjour,

Je sais pas si ca va vous aider mais mes fichiers sont aussi en .html.... c'est peut etre plus simple pour extraire les informations et les introduire dans une base de donnée.
Voici un exemple en pièces jointe.

Merci pour votre aide, je vous en serai vraiment reconnaissante si vous me trouviez une solution;)
 

Pièces jointes

  • essai.zip
    29.7 KB · Affichages: 210
  • essai.zip
    29.7 KB · Affichages: 196
  • essai.zip
    29.7 KB · Affichages: 204

jp14

XLDnaute Barbatruc
Re : extraire des données word ou pdf vers une base de données excel

Bonjour

Une première approche.
J'ai recopié (copier coller) les données dans une feuille excel (feuille3).
Une macro permet de supprimer le texte inutile (feuille1) et transfère les données sous forme de base de données dans la feuille 2, en utilisant comme séparateur les virgules.
On constate que les différents textes n'ont pas la même structure.

JP
 

Pièces jointes

  • essai.xls
    51 KB · Affichages: 418
  • essai.xls
    51 KB · Affichages: 424
  • essai.xls
    51 KB · Affichages: 421
Dernière édition:

jp14

XLDnaute Barbatruc
Re : extraire des données word ou pdf vers une base de données excel

Bonsoir

Pour faciliter l'exploitation, la procédure compte le nombre de virgule et les données qui ont le même nombre de virgules ( a priori la même structure) sont écrites dans la même feuille.

JP
 

Pièces jointes

  • essaib.xls
    62.5 KB · Affichages: 341

besdu06

XLDnaute Nouveau
Re : extraire des données word ou pdf vers une base de données excel

Bonsoir,

Je te remerci JP14 pour le temps que tu m'a consacré...Par contre je ne comprends pas tres bien ton deuxième excel, quelle feuille est la bonne? la 7?

En tout ca ça me fait avancer énormément, je vais essayer de reprendre ta macro pour pouvoir le faire pour mes 1500 arrêtés ^^.

Je vais peut etre encore abuser de ta gentillesse...pourrai tu m'expliquer pas à pas comment tu as fait? Ca sera un certain type de tutoriel que tout le monde pourra consulter pour ce cas là....

Merci pour tout!!!

Bes.
 

jp14

XLDnaute Barbatruc
Re : extraire des données word ou pdf vers une base de données excel

Bonjour

Dans le deuxième classeur le résultat se trouve dans un onglet qui a pour nom, le nombre de virgule (qui varie de 7 à 10) qui se trouvait dans les données de base (feuille1). La ligne utilisée correspond à la ligne ou se trouve la donnée, ce qui facilite le contrôle visuel.
A priori, mais ce n'est pas une obligation les données qui ont le même nombre de virgules possède la même structure au niveaux de l'organisation des infos.
Dans ce type de travail il reste toujours une partie à faire manuellement.

JP
 

besdu06

XLDnaute Nouveau
Re : extraire des données word ou pdf vers une base de données excel

Merci JP14 ca devient plus claire...par contre tu ne saurai pas comment automatiser la partie "copier/coller" des fichiers web vers excel? Comme j'ai 1500 fichiers que je dois traiter...

Thanks for all your help JP14:eek::eek:

Bes
 

Statistiques des forums

Discussions
312 282
Messages
2 086 767
Membres
103 390
dernier inscrit
BMatoul