L'archive contient le fichier index.pl, programme generant une base d'indexation
( avec au debut la liste des documents et apres l'indexation mot . index du document , ponderation .... )
Cette base d'indexation est tres simple , son format :
[files:nbfichier a indexer]
numero=nom du fichier,titre
...
[words:nombre de mot]
mot=>numero du document,poderation:numero du document,poderation ...
....
[rejected:nombre de mot rejete car trop frequent]
mot
....
Une fois la base creee, nous allons pouvoir l'utilise cette source d'information dans plusieur
but applicatif.
Pour ce qui est de l'interface WEB avec du php, nous allons inserer le resultat de
l'indexation dans une base SQL.
Pour le fonctionnement de index.pl il faut avoir
use File::Basename;
use HTML::Entities;
(vous devrez trouvez cela sur http://www.cpan.org/)