Discussion:
Classe permettant la lecture de fichiers pdf ?
(trop ancien pour répondre)
Antoine
2009-02-03 08:46:06 UTC
Permalink
Bonjour à tous,

j'aurais besoin de parser différents fichiers pdf, très différents
entre eux, pour en extraire des informations "texte" et je recherche
une classe php pour ce faire. Auriez-vous un conseil ou un retour
d'expérience sur telle ou telle classe ou script ?

Merci,
Antoine
Mihamina Rakotomandimby (R12y)
2009-02-03 16:33:48 UTC
Permalink
Post by Antoine
j'aurais besoin de parser différents fichiers pdf, très différents
entre eux, pour en extraire des informations "texte" et je recherche
une classe php pour ce faire. Auriez-vous un conseil ou un retour
d'expérience sur telle ou telle classe ou script ?
Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le format PDF
n'est pas vraiment destiné à etre édité ou reparsé, il est simplement
destiné à l'affichage/impression.

Cependant, pourquoi demandes-tu ibligatoirement une classe? Le simple
utilitaire pdf2text (ou nom voisin) ne te suffirait pas?

Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si c'est
encore utile).

Ce genre d'outil est généralement disponible sur les bons serveurs Linux.
Antoine
2009-02-04 08:23:40 UTC
Permalink
Post by Mihamina Rakotomandimby (R12y)
Post by Antoine
j'aurais besoin de parser différents fichiers pdf, très
différents entre eux, pour en extraire des informations "texte"
et je recherche une classe php pour ce faire. Auriez-vous un
conseil ou un retour d'expérience sur telle ou telle classe ou
script ?
Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le
format PDF n'est pas vraiment destiné à etre édité ou reparsé, il
est simplement destiné à l'affichage/impression.
C'est tout le problème ; j'ai besoin de récupérer, non manuellement,
certains contenus de différents fichiers pdf et c'est vrai que le
format ne s'y prête pas de façon immédiate.
Post by Mihamina Rakotomandimby (R12y)
Cependant, pourquoi demandes-tu ibligatoirement une classe?
Juste pour avoir quelque chose de générique et de facilement
réutilisable ; mais un script ou une fonction feraient largement
l'affaire.
Post by Mihamina Rakotomandimby (R12y)
Le
simple utilitaire pdf2text (ou nom voisin) ne te suffirait pas?
Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si
c'est encore utile).
Ce genre d'outil est généralement disponible sur les bons serveurs Linux.
Oui mais je recherche une solution qui fonctionne sur toute
configuration d'hébergement, même celles où les scripts php n'ont
aucun droit d'exécution de commandes sur le serveur lui-même.

Merci tout de même.
--
Antoine
Rodes Joel
2009-02-19 09:23:54 UTC
Permalink
J'ai fait quelques recherches l'an dernier.
sur le lien ci dessous, il explique la structure du format pdf, et donne un
exemple de programme.
J'ai pas trouvé mieux.
Bon courage.

http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx
--
***************************************
** Rodes Joel **
** Tel : 05.53.77.88.99 **
** Fax : 05.53.77.88.90 **
** ***@IDM-Informatique.com **
***************************************
Post by Antoine
Post by Mihamina Rakotomandimby (R12y)
Post by Antoine
j'aurais besoin de parser différents fichiers pdf, très
différents entre eux, pour en extraire des informations "texte"
et je recherche une classe php pour ce faire. Auriez-vous un
conseil ou un retour d'expérience sur telle ou telle classe ou
script ?
Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le
format PDF n'est pas vraiment destiné à etre édité ou reparsé, il
est simplement destiné à l'affichage/impression.
C'est tout le problème ; j'ai besoin de récupérer, non manuellement,
certains contenus de différents fichiers pdf et c'est vrai que le
format ne s'y prête pas de façon immédiate.
Post by Mihamina Rakotomandimby (R12y)
Cependant, pourquoi demandes-tu ibligatoirement une classe?
Juste pour avoir quelque chose de générique et de facilement
réutilisable ; mais un script ou une fonction feraient largement
l'affaire.
Post by Mihamina Rakotomandimby (R12y)
Le
simple utilitaire pdf2text (ou nom voisin) ne te suffirait pas?
Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si
c'est encore utile).
Ce genre d'outil est généralement disponible sur les bons serveurs Linux.
Oui mais je recherche une solution qui fonctionne sur toute
configuration d'hébergement, même celles où les scripts php n'ont
aucun droit d'exécution de commandes sur le serveur lui-même.
Merci tout de même.
--
Antoine
Antoine
2009-02-23 11:24:06 UTC
Permalink
Post by Rodes Joel
J'ai fait quelques recherches l'an dernier.
sur le lien ci dessous, il explique la structure du format pdf, et
donne un exemple de programme.
J'ai pas trouvé mieux.
Bon courage.
http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_
799.aspx
C'est une très bonne base, merci beaucoup Joël.
--
Antoine
Continuer la lecture sur narkive:
Loading...