Classe permettant la lecture de fichiers pdf ?

Discussion:

(trop ancien pour répondre)

Antoine

2009-02-03 08:46:06 UTC

Bonjour à tous,

j'aurais besoin de parser différents fichiers pdf, très différents
entre eux, pour en extraire des informations "texte" et je recherche
une classe php pour ce faire. Auriez-vous un conseil ou un retour
d'expérience sur telle ou telle classe ou script ?

Merci,
Antoine

Mihamina Rakotomandimby (R12y)

2009-02-03 16:33:48 UTC

Permalink

Post by Antoine
j'aurais besoin de parser différents fichiers pdf, très différents
entre eux, pour en extraire des informations "texte" et je recherche
une classe php pour ce faire. Auriez-vous un conseil ou un retour
d'expérience sur telle ou telle classe ou script ?

Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le format PDF
n'est pas vraiment destiné à etre édité ou reparsé, il est simplement
destiné à l'affichage/impression.

Cependant, pourquoi demandes-tu ibligatoirement une classe? Le simple
utilitaire pdf2text (ou nom voisin) ne te suffirait pas?

Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si c'est
encore utile).

Ce genre d'outil est généralement disponible sur les bons serveurs Linux.

Antoine

2009-02-04 08:23:40 UTC

Permalink

Post by Mihamina Rakotomandimby (R12y)

Post by Antoine
j'aurais besoin de parser différents fichiers pdf, très
différents entre eux, pour en extraire des informations "texte"
et je recherche une classe php pour ce faire. Auriez-vous un
conseil ou un retour d'expérience sur telle ou telle classe ou
script ?

Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le
format PDF n'est pas vraiment destiné à etre édité ou reparsé, il
est simplement destiné à l'affichage/impression.

C'est tout le problème ; j'ai besoin de récupérer, non manuellement,
certains contenus de différents fichiers pdf et c'est vrai que le
format ne s'y prête pas de façon immédiate.

Post by Mihamina Rakotomandimby (R12y)
Cependant, pourquoi demandes-tu ibligatoirement une classe?

Juste pour avoir quelque chose de générique et de facilement
réutilisable ; mais un script ou une fonction feraient largement
l'affaire.

Post by Mihamina Rakotomandimby (R12y)
Le
simple utilitaire pdf2text (ou nom voisin) ne te suffirait pas?
Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si
c'est encore utile).
Ce genre d'outil est généralement disponible sur les bons serveurs Linux.

Oui mais je recherche une solution qui fonctionne sur toute
configuration d'hébergement, même celles où les scripts php n'ont
aucun droit d'exécution de commandes sur le serveur lui-même.

Merci tout de même.

--
Antoine

Rodes Joel

2009-02-19 09:23:54 UTC

Permalink

J'ai fait quelques recherches l'an dernier.
sur le lien ci dessous, il explique la structure du format pdf, et donne un
exemple de programme.
J'ai pas trouvé mieux.
Bon courage.

http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx
--
***************************************
** Rodes Joel **
** Tel : 05.53.77.88.99 **
** Fax : 05.53.77.88.90 **
** ***@IDM-Informatique.com **
***************************************

Post by Antoine

Post by Mihamina Rakotomandimby (R12y)

Post by Antoine
j'aurais besoin de parser différents fichiers pdf, très
différents entre eux, pour en extraire des informations "texte"
et je recherche une classe php pour ce faire. Auriez-vous un
conseil ou un retour d'expérience sur telle ou telle classe ou
script ?

Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le
format PDF n'est pas vraiment destiné à etre édité ou reparsé, il
est simplement destiné à l'affichage/impression.

C'est tout le problème ; j'ai besoin de récupérer, non manuellement,
certains contenus de différents fichiers pdf et c'est vrai que le
format ne s'y prête pas de façon immédiate.

Post by Mihamina Rakotomandimby (R12y)
Cependant, pourquoi demandes-tu ibligatoirement une classe?

Juste pour avoir quelque chose de générique et de facilement
réutilisable ; mais un script ou une fonction feraient largement
l'affaire.

Antoine

2009-02-23 11:24:06 UTC

Permalink

Post by Rodes Joel
J'ai fait quelques recherches l'an dernier.
sur le lien ci dessous, il explique la structure du format pdf, et
donne un exemple de programme.
J'ai pas trouvé mieux.
Bon courage.
http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_
799.aspx

C'est une très bonne base, merci beaucoup Joël.

--
Antoine

Continuer la lecture sur narkive:

Sujets non liés mais intéressants

réponses

Pour quel sujet les premières années à Poudlard ont-elles besoin de «Bêtes fantastiques et où les trouver»?

démarré 2015-11-06 01:59:27 UTC

réponses

Iron Man peut-il recharger sa combinaison contre la foudre?

démarré 2013-01-23 14:46:09 UTC

réponses

Pourquoi l'agent Smith n'est-il pas mort?

démarré 2012-06-26 22:35:36 UTC

réponses

L'entreprise dans "The Motion Picture" était-elle en fait une refonte de celle de la série télévisée?

démarré 2012-07-30 21:29:28 UTC

réponses

Comment Jim a-t-il pu marcher dans l'espace alors que le navire voyageait à 0,5 c?

démarré 2017-01-12 04:57:33 UTC