User tools

Website tools


duplicate detection

Differences

The differences between two versions are shown here.

Link to this comparison view

Both sides of the previous revisionPrevious revision
Next revision
Previous revision
duplikatserkennung [2018/07/02 16:17] – [Vereinfachte Checksumme] lwsystemsduplikatserkennung [2022/06/08 14:12] (current) – [Funktionsweise] lwsystems
Zeile 7: Zeile 7:
 ===== Funktionsweise ===== ===== Funktionsweise =====
  
-Die Checksumme wird jeweils über die **gesamte** E-Mail erzeugt. So kann direkt beim Archivieren einer E-Mail geprüft werden, ob eine Mail mit gleicher Prüfsumme evtl. bereits im Archiv vorhanden ist. Eine etwaige gleiche Checksumme würde bedeuten, dass die zu archivierende Mail bereits im Archiv abgelegt wurde, also eine Doublette wäre. Die Archivierung der betreffenden Mail würde in diesem Fall abgebrochen und das Erkennen des Duplikats entsprechend im Archivierungs-Logfile /var/log/benno/archive.log protokolliert. Zusätzlich wird der nicht erfolgte Archivierungsvorgang des Duplikats im Journal mit Prüfsumme und dem Hinweis „DUPLICATE“ protokolliert.+Die Checksumme wird jeweils über die **gesamte** eingegangene E-Mail erzeugt. Von der Berechnung der Checksumme ausgenommen sind Header, die in der Konfigurationsdatei als //[[konfiguration#secretheaders|<secretheaders />]]// deklariert sind. In der Regel sind diese Header von der Import-Schnittstelle hinzugefügt worden. Sie waren daher nie Bestandteil der eigentlichen E-Mail. 
 + 
 +Beim Archivieren einer E-Mail wird geprüft, ob eine Mail mit gleicher Prüfsumme evtl. bereits im Archiv vorhanden ist. Eine gleiche Checksumme bedeutet, dass die zu archivierende Mail bereits im Archiv abgelegt wurde, also eine Doublette wäre. Die Archivierung der betreffenden Mail würde in diesem Fall abgebrochen und das Erkennen des Duplikats entsprechend im Archivierungs-Logfile /var/log/benno/archive.log protokolliert. Zusätzlich wird der nicht erfolgte Archivierungsvorgang des Duplikats im Journal (///srv/benno/archive/repo/{yyyy}/journal/current.journal//mit Prüfsumme und dem Hinweis „DUPLICATE“ protokolliert.
  
 Dank dieser wirksamen Doubletten-Erkennung können E-Mails beliebig oft zur Archivierung an Benno MailArchiv übergeben werden. Sie werden zuverlässig als Doubletten erkannt und ihre Archivierung als Duplikat abgebrochen, so dass jede Mail tatsächlich nur einmal in das Mailarchiv gelangt. Dank dieser wirksamen Doubletten-Erkennung können E-Mails beliebig oft zur Archivierung an Benno MailArchiv übergeben werden. Sie werden zuverlässig als Doubletten erkannt und ihre Archivierung als Duplikat abgebrochen, so dass jede Mail tatsächlich nur einmal in das Mailarchiv gelangt.
-Durch die SHA265-Prüfsumme ist mit an Sicherheit grenzender Wahrscheinlichkeit ausgeschlossen, dass E-Mails jemals versehentlich als Doublette erkannt und damit irrtümlich nicht archiviert werden.+Durch die SHA256-Prüfsumme ist mit an Sicherheit grenzender Wahrscheinlichkeit ausgeschlossen, dass E-Mails jemals versehentlich als Doublette erkannt und damit irrtümlich nicht archiviert werden.
 Da die gesamte E-Mail für die Erzeugung der Checksumme herangezogen wird, bedeutet dies bzgl. der Konsistenzprüfung von archivierten E-Mails bzw. der Konsistenzprüfung des gesamten Archivs, dass bereits das „Kippen“ eines einziges Bits einer archivierten E-Mail ausreicht, um die Checksumme der Mail zu verändern, und somit eine Korruption der Mail/des Archivs festzustellen ist. Da die gesamte E-Mail für die Erzeugung der Checksumme herangezogen wird, bedeutet dies bzgl. der Konsistenzprüfung von archivierten E-Mails bzw. der Konsistenzprüfung des gesamten Archivs, dass bereits das „Kippen“ eines einziges Bits einer archivierten E-Mail ausreicht, um die Checksumme der Mail zu verändern, und somit eine Korruption der Mail/des Archivs festzustellen ist.
  
Zeile 17: Zeile 19:
 While emails typically (and especially in on-premises installations) reach the mail archive via a single, uniform path, in complex environments (e.g., in larger hosting infrastructures) emails may be transported to the archive multiple times and simultaneously via different paths. For example, different MTAs or transport methods and types (SMTP, IMAP, etc.) could be responsible for this. While emails typically (and especially in on-premises installations) reach the mail archive via a single, uniform path, in complex environments (e.g., in larger hosting infrastructures) emails may be transported to the archive multiple times and simultaneously via different paths. For example, different MTAs or transport methods and types (SMTP, IMAP, etc.) could be responsible for this.
  
-In diesem Fall bietet sich die Konfiguration einer vereinfachten Checksumme über einzelne Header der E-Mail an.+In diesem Fall bietet sich die Konfiguration einer [[konfiguration#vereinfachte_checksumme|vereinfachten Checksumme]] über einzelne Header der E-Mail an.
  
  
duplikatserkennung.1530548274.txt.gz · Zuletzt geändert: 2018/07/02 16:17 von lwsystems