Post by Olivier MiakinenOui, et c'est très difficile à faire. Par exemple, alors que "<" est un
<un_element value=">" class="bidule">
Je tiens d'abord à dire que je n'ai pas besoin de ça : c'est simplement
de la curiosité (ou cas où, un jour...)
Je n'avais pas du tout pensé à ce qu'il puisse y avoir > comme valeur
car je pensais que c'était également réservé.
Sinon, effectivement, tout le problème est dans le fait de rencontrer un
mot de la base entre <>.
J'avais pensé à une regexp simple mais j'avais surtout oublié que des
balises non fermantes existaient...
Sans parler du fait qu'il soit possible de mettre < et > dans un texte.
Bref, striptags est la meilleure idée. Pourquoi ? Parce que c'est très
rapidement que l'on saura déjà s'il y a des mots qui conviennent, bien
avant d'avoir fait une (très) lourde regexp.
Là, on peut partir sur des trucs très complexes encore. Mais le bon sens
me fait penser à un truc tout simple : regarder le mot qu'il y a avant
et après (mot ou caractère(s)) dans le texte dénudé.
Ainsi, on élimine simplement les possibilités de class et id sauf à
avoir (mais faut pas pousser, d'autant que c'est nous qui contrôlons ces
noms) des classes qui se suivent comme dans la phrase (class="la
paronomase est").
Aucune lourde regexp nécessaire. Bon, ce n'est pas tout léger non plus :)
Y voyez-vous une bourde ?