User tools

Website tools


re-indexing

This is an old version of the document!


Index Update

Wird eine schon archivierte E-Mail erneut importiert, wird dieses mit Hilfe der Duplikatserkennung festgestellt. In diesem Fall wird die archivierte Datei nicht verändert und die zu importierende E-Mail wird mit Hilfe des Tokenizers analysiert. Anschließend wird der Index-Eintrag der E-Mail gelöscht und durch die aktualisierten Index-Daten des Tokenizers neu beschrieben.

Dieses Vorgehen kann beispielsweise sinnvoll werden, wenn der Tokenizer ein vorher nicht bekanntes Dateiformat unterstützt und E-Mails mit diesen Anhängen besser gefunden werden sollen.

Re-indexing a container

To re-index a container, all emails must be read and indexed again.

To completely re-index a container, it is necessary to re-import all emails from the repository. For the re-import, the emails are transferred from the repository to the Inbox directory.

Re-import

Im Repository-Verzeichnis liegen die E-Mails als gezippte Dateien in einem erweiterten RFC822-Format. Die Dateien enthalten einen speziellen Header mit internen Metainformationen sowie die eigentliche E-Mail.

Für den Re-Index muss zuerst dieser Header abgetrennt werden. Danach muss die E-Mail "atomar" in die Inbox geschrieben werden.

Zur Vereinfachung des Imports stellen wir das Perl-Script benno-bennobox2eml zur Verfügung. Dieses durchsucht das Repo-Verzeichnis nach den Archivdateien, extrahiert die Header und schreibt die E-Mails atomar in das Inbox-Verzeichnis.

benno-bennobox2eml

Usage: ./benno-bennobox2eml [-h] [-d] [-v] [-m <num>] -a <archive directory> [-e <export directory] -a archive directory -e export files to this directory (default current archive directory) -d dry run -m <num> max files in inbox directory -v verbose

Example call:

./benno-bennobox2eml -a /srv/benno/archive/repo -e /srv/benno/inbox
re-indexierung.1512991788.txt.gz · Zuletzt geändert: 2017/12/11 11:29 von lwsystems