Discussion:
conversion de fichiers word
(trop ancien pour répondre)
Christophe Raverdy
2008-09-11 22:21:47 UTC
Permalink
Bonjour.

Je programme en ce moment un utilitaire me permettant de gérer une base
documentaire à partir d'expressions régulières.

Je n'ai aucun problème pour les expressions régulières par contre la base
documentaire est problématique en ce que l'essentiel des fichiers est au
format word.

Je voudrais donc pouvoir récupérer le document (je sais faire) et le
transmettre par exemple à une API d'openffice afin de convertir le document
word en texte brut. Bien entendu s'il existe s'il existe une méthode plus
efficace je suis preneur.

J'aurais donc aimé connaître les prérequis (principalement sous windows),
les API et leur mode d'emploi.

Par avance, merci.
Romain Gilliotte
2008-09-13 22:41:20 UTC
Permalink
Post by Christophe Raverdy
Bonjour.
Je programme en ce moment un utilitaire me permettant de gérer une base
documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base
documentaire est problématique en ce que l'essentiel des fichiers est au
format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le
transmettre par exemple à une API d'openffice afin de convertir le document
word en texte brut. Bien entendu s'il existe s'il existe une méthode plus
efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows),
les API et leur mode d'emploi.
Par avance, merci.
dans quel cadre tu dois faire ca?
Il y a pleins de version de fichier word et il faudrait que tu sois
toutes capable de les parser...

Ton application devient beaucoup plus qu'un truc en PHP.

En gros ton premier probleme, c'est d'arriver a parser des .doc (dans
toutes les versions de word).
Je viens de googleler deux secondes et je trouve ca: http://poi.apache.org/

Ca devrait pas mal t'interesser, mais bon c'est pas une solution
apelable depuis PHP comme ca.

Apres pour faire des recherches frequentes dans une base de .doc tu peux
pas te permettre de tout reparser a chaque fois pour des raisons
evidentes de performances.

Il faudrait construire une base de donnes avec l'arborescence de tous
les fichiers, leur derniere date de modification, et un ensembles de
tables pour pouvoir rechercher des mots clefs a l'interieur (des regexps
ca me semble presque impossible pour des performances potables, sauf si
c'est des regexp sur des mots isoles, dans ce cas pas de probleme).

Tu fait ensuite tourner un programme sur le serveur qui tiens a jour la
base de donnes, et tu fais tes recherches dans cette base de donnes.


C'est surement pas le meilleur exemple, mais perso j'avais regarde la
base de donnee de phpBB2 a l'epoque pour comprendre comment faire des
recherches rapides.

En tout cas, bon courage.
Denis Beauregard
2008-09-14 08:12:15 UTC
Permalink
Le 11 Sep 2008 22:21:47 GMT, Christophe Raverdy
Post by Christophe Raverdy
Bonjour.
Je programme en ce moment un utilitaire me permettant de gérer une base
documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base
documentaire est problématique en ce que l'essentiel des fichiers est au
format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le
transmettre par exemple à une API d'openffice afin de convertir le document
word en texte brut. Bien entendu s'il existe s'il existe une méthode plus
efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows),
les API et leur mode d'emploi.
Par avance, merci.
Le moteur de Google (et d'autres aussi) indexe les fichiers .doc. Il
se trouve que Google vend cette technologie pour utilisation sur un
PC. Comme le PHP offre la fonction "system", ce serait peut-être une
façon de s'en sortir si le but est seulement de retrouver des
informations dans des fichiers .doc et non de les convertir. Bon, les
expressions régulières de Google ne sont pas très poussées mais il y a
peut-être moyen de faire une conversion. En tous cas, c'est une piste
à explorer à mon avis.


Denis

Continuer la lecture sur narkive:
Loading...