Benutzer-Werkzeuge

Webseiten-Werkzeuge


re-indexierung

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
re-indexierung [2017/12/11 11:29] – [Re-Indexierung eines Containers] lwsystemsre-indexierung [2023/04/19 10:11] (aktuell) – [benno-bennobox2eml] lwsystems
Zeile 1: Zeile 1:
-====== Index Update ======+====== Index Update und Reindex des Archivs ======
  
  
-Wird eine schon archivierte E-Mail erneut importiert, wird dieses mit Hilfe der Duplikatserkennung festgestellt.  +Wird eine schon archivierte E-Mail erneut importiert, wird dieses mit Hilfe der Duplikatserkennung festgestellt. 
-In diesem Fall wird die archivierte Datei nicht verändert und die zu importierende E-Mail wird mit Hilfe des Tokenizers analysiert+In diesem Fall wird die Mail nicht erneut archiviert. Auch wird die archivierte Mail nicht verändert. Die zu importierende E-Mail wird stattdessen mit Hilfe des Tokenizers analysiert und neu indexiert; Der Index-Eintrag der betreffenden E-Mail wird gelöscht und durch die aktualisierten Index-Daten der E-Mail ersetzt.
-Anschließend wird der Index-Eintrag der E-Mail gelöscht und durch die aktualisierten Index-Daten des Tokenizers neu beschrieben.+
  
-Dieses Vorgehen kann beispielsweise sinnvoll werden, wenn der Tokenizer ein vorher nicht bekanntes Dateiformat unterstützt und E-Mails mit diesen Anhängen besser gefunden werden sollen.+Dieses Vorgehen kann beispielsweise eingesetzt werden, wenn der Tokenizer ein vorher nicht bekanntes Dateiformat (Attachmenttyp) unterstützt. Die Inhalte von Anhängen, die auf Grund unbekannter Dateiformate nicht indexiert werden konnten, können so einfach erneut indexiert werden, so dass Mails mit diesen Anhängen besser gefunden werden können. 
 + 
 +(Hinweis: Der Tokenizer unterstützt Stand Ende 2017 ca. 1.300 unterschiedliche Dateiformate).
  
 ====== Re-Indexierung eines Containers ====== ====== Re-Indexierung eines Containers ======
Zeile 17: Zeile 18:
 ====== Re-Import ====== ====== Re-Import ======
  
-Im Repository-Verzeichnis liegen die E-Mails als gezippte Dateien in einem erweiterten [[Archiv-Format|RFC822-Format]]. Die Dateien enthalten einen speziellen Header mit internen Metainformationen sowie die eigentliche E-Mail.+Im Repository-Verzeichnis liegen die E-Mails als gezippte Dateien in einem erweiterten [[Archiv-Format|RFC822-Format]]. Die Dateien im Archiv enthalten einen speziellen, Benno MailArchiv-spezifischen Header mit internen Metainformationensowie die eigentliche E-Mail.
  
-Für den Re-Index  muss zuerst dieser Header abgetrennt werden. Danach muss die E-Mail [[Import#Atomares_Kopieren|"atomar"]] in die Inbox geschrieben werden.+Für den Re-Index  muss zuerst der Benno-spezifische Header entfernt werden. Die Mail ist dann wieder dem Original entsprechend. Danach muss die E-Mail [[Import#Atomares_Kopieren|"atomar"]] in die Inbox geschrieben werden.
  
-Zur Vereinfachung des Imports stellen wir das Perl-Script [[http://www.benno-mailarchiv.de/download/contrib/benno-bennobox2eml|benno-bennobox2eml]] zur Verfügung. Dieses durchsucht das Repo-Verzeichnis nach den Archivdateien, extrahiert die Header und schreibt die E-Mails atomar in das Inbox-Verzeichnis. +Der Re-Imports stellen kann mit dem Programm ''benno-bennobox2eml'' aus dem Paket //**benno-import-tools**// durchgeführt werden. Dieses durchsucht das Repo-Verzeichnis nach den Archivdateien, extrahiert die Header und schreibt die E-Mails atomar in das Inbox-Verzeichnis. 
  
 ===== benno-bennobox2eml ===== ===== benno-bennobox2eml =====
 +
 +Das Programm ist im Paket //benno-import-tools// enthalten.
  
 <code> <code>
-Usage: ./benno-bennobox2eml [-h] [-d] [-v] [-m <num>] -a <archive directory>+Usage: /usr/sbin/benno-bennobox2eml [-h] [-d] [-v] [-m <num>] -a <archive directory>
        [-e <export directory]        [-e <export directory]
  
-    -a        archive directory +    -a          archive (repo) directory 
-    -e        export files to this directory (default current archive directory) +    -b          boxstate file (default $archive_dir/boxstate.xml) 
-    -d        dry run +    -e          export files to directory (default current archive directory) 
-    -m <num>  max files in inbox directory +    -d          dry run 
-    -v        verbose+    -s          skip defective marked mails 
 +    -m <num>    max files in inbox directory 
 +    -v          verbose 
 +    -V          print version
 </code> </code>
  
 Beispiel-Aufruf: Beispiel-Aufruf:
  
-  ./benno-bennobox2eml -a /srv/benno/archive/repo -e /srv/benno/inbox+  sudo -u benno benno-bennobox2eml -a /srv/benno/archive/repo -e /srv/benno/inbox
  
re-indexierung.1512991788.txt.gz · Zuletzt geändert: 2017/12/11 11:29 von lwsystems