Инструменты пользователя

Инструменты веб-сайта


обнаружение дубликатов

Различия

Здесь показаны различия между двумя версиями.

Ссылка на этот сравнительный просмотр

Обе стороны предыдущей редакцииПредыдущая редакция
Следующая редакция
Предыдущая редакция
duplikatserkennung [2017/11/23 13:42] – [Multiple Mailzuführung in komplexen Umgebungen] lwsystemsduplikatserkennung [2022/06/08 14:12] (текущий) – [Funktionsweise] lwsystems
Zeile 5: Zeile 5:
 В процессе архивирования Benno MailArchiv генерирует контрольную сумму SHA256 для каждого заархивированного электронного письма. Эта сумма записывается во внутренний журнал Benno MailArchiv и используется для проверки согласованности (соответствия требованиям). В процессе архивирования Benno MailArchiv генерирует контрольную сумму SHA256 для каждого заархивированного электронного письма. Эта сумма записывается во внутренний журнал Benno MailArchiv и используется для проверки согласованности (соответствия требованиям).
  
-====== Funktionsweise ======+===== Funktionsweise =====
  
-Die Checksumme wird jeweils über die **gesamte** E-Mail erzeugt. So kann direkt beim Archivieren einer E-Mail geprüft werden, ob eine Mail mit gleicher Prüfsumme evtl. bereits im Archiv vorhanden ist. Eine etwaige gleiche Checksumme würde bedeuten, dass die zu archivierende Mail bereits im Archiv abgelegt wurde, also eine Doublette wäre. Die Archivierung der betreffenden Mail würde in diesem Fall abgebrochen und das Erkennen des Duplikats entsprechend im Archivierungs-Logfile /var/log/benno/archive.log protokolliert. Zusätzlich wird der nicht erfolgte Archivierungsvorgang des Duplikats im Journal mit Prüfsumme und dem Hinweis „DUPLICATE“ protokolliert.+Die Checksumme wird jeweils über die **gesamte** eingegangene E-Mail erzeugt. Von der Berechnung der Checksumme ausgenommen sind Header, die in der Konfigurationsdatei als //[[konfiguration#secretheaders|<secretheaders />]]// deklariert sind. In der Regel sind diese Header von der Import-Schnittstelle hinzugefügt worden. Sie waren daher nie Bestandteil der eigentlichen E-Mail.
 + 
 +Beim Archivieren einer E-Mail wird geprüft, ob eine Mail mit gleicher Prüfsumme evtl. bereits im Archiv vorhanden ist. Eine gleiche Checksumme bedeutet, dass die zu archivierende Mail bereits im Archiv abgelegt wurde, also eine Doublette wäre. Die Archivierung der betreffenden Mail würde in diesem Fall abgebrochen und das Erkennen des Duplikats entsprechend im Archivierungs-Logfile /var/log/benno/archive.log protokolliert. Zusätzlich wird der nicht erfolgte Archivierungsvorgang des Duplikats im Journal (///srv/benno/archive/repo/{yyyy}/journal/current.journal//) mit Prüfsumme und dem Hinweis „DUPLICATE“ protokolliert.
  
 Dank dieser wirksamen Doubletten-Erkennung können E-Mails beliebig oft zur Archivierung an Benno MailArchiv übergeben werden. Sie werden zuverlässig als Doubletten erkannt und ihre Archivierung als Duplikat abgebrochen, so dass jede Mail tatsächlich nur einmal in das Mailarchiv gelangt. Dank dieser wirksamen Doubletten-Erkennung können E-Mails beliebig oft zur Archivierung an Benno MailArchiv übergeben werden. Sie werden zuverlässig als Doubletten erkannt und ihre Archivierung als Duplikat abgebrochen, so dass jede Mail tatsächlich nur einmal in das Mailarchiv gelangt.
-Durch die SHA265-Prüfsumme ist mit an Sicherheit grenzender Wahrscheinlichkeit ausgeschlossen, dass E-Mails jemals versehentlich als Doublette erkannt und damit irrtümlich nicht archiviert werden.+Durch die SHA256-Prüfsumme ist mit an Sicherheit grenzender Wahrscheinlichkeit ausgeschlossen, dass E-Mails jemals versehentlich als Doublette erkannt und damit irrtümlich nicht archiviert werden.
 Da die gesamte E-Mail für die Erzeugung der Checksumme herangezogen wird, bedeutet dies bzgl. der Konsistenzprüfung von archivierten E-Mails bzw. der Konsistenzprüfung des gesamten Archivs, dass bereits das „Kippen“ eines einziges Bits einer archivierten E-Mail ausreicht, um die Checksumme der Mail zu verändern, und somit eine Korruption der Mail/des Archivs festzustellen ist. Da die gesamte E-Mail für die Erzeugung der Checksumme herangezogen wird, bedeutet dies bzgl. der Konsistenzprüfung von archivierten E-Mails bzw. der Konsistenzprüfung des gesamten Archivs, dass bereits das „Kippen“ eines einziges Bits einer archivierten E-Mail ausreicht, um die Checksumme der Mail zu verändern, und somit eine Korruption der Mail/des Archivs festzustellen ist.
  
-===== Multiple Mailzuführung in komplexen Umgebungen =====+====== Multiple Mailzuführung in komplexen Umgebungen ======
  
 В то время как электронные письма обычно (особенно в локальных системах) попадают в почтовый архив по одному единому пути, в сложных средах (например, в крупных хостинговых инфраструктурах) электронные письма могут передаваться в архив несколько раз и одновременно по разным путям. Например, за это могут отвечать различные MTA или методы и типы передачи (SMTP, IMAP и т. д.). В то время как электронные письма обычно (особенно в локальных системах) попадают в почтовый архив по одному единому пути, в сложных средах (например, в крупных хостинговых инфраструктурах) электронные письма могут передаваться в архив несколько раз и одновременно по разным путям. Например, за это могут отвечать различные MTA или методы и типы передачи (SMTP, IMAP и т. д.).
  
-==== Ein Beispiel ====+In diesem Fall bietet sich die Konfiguration einer [[konfiguration#vereinfachte_checksumme|vereinfachten Checksumme]] über einzelne Header der E-Mail an.
 + 
 + 
 +===== Ein Beispiel =====
  
 В условиях сложной инфраструктуры Benno MailArchiv получает для архивирования определенное электронное письмо «M» по трем различным маршрутам. Поскольку каждая копия письма передается по этим разным маршрутам, само письмо (с точки зрения пользователя в почтовом клиенте – то есть, с точки зрения текста и содержимого) остается одинаковым. Однако в копиях писем (в той части, которая обычно не видна пользователю) для каждой копии вставлены отдельные и разные заголовки из-за различных маршрутов передачи. В условиях сложной инфраструктуры Benno MailArchiv получает для архивирования определенное электронное письмо «M» по трем различным маршрутам. Поскольку каждая копия письма передается по этим разным маршрутам, само письмо (с точки зрения пользователя в почтовом клиенте – то есть, с точки зрения текста и содержимого) остается одинаковым. Однако в копиях писем (в той части, которая обычно не видна пользователю) для каждой копии вставлены отдельные и разные заголовки из-за различных маршрутов передачи.
Zeile 53: Zeile 58:
 Однако, если на архивирование поступает несколько писем (идентичных по содержанию и тексту) M1, M2 и M3 (различные копии одного и того же письма в указанном выше смысле), как следует обрабатывать их с учетом различий в заголовках? Однако, если на архивирование поступает несколько писем (идентичных по содержанию и тексту) M1, M2 и M3 (различные копии одного и того же письма в указанном выше смысле), как следует обрабатывать их с учетом различий в заголовках?
  
-====== Eine rechtliche Sicht auf diese Situation ======+====== Eine Sicht auf rechtliche Aspekte dieser Situation ======
  
 Rechtlich besteht nach uns vorliegenden Informationen kein Zwang, mehrere Varianten einer E-Mail zu archivieren, die sich nur in Bezug auf die Mailheader unterscheiden. Dennoch sollten nach den uns vorliegenden Informationen pragmatisch betrachtet alle Exemplare der betreffenden E-Mail (M1, M2, M3 usw.) archiviert werden. Rein formell (und technisch anhand der unterschiedlichen Checksummen sofort nachvollziehbar) handelt es sich de facto um unterschiedliche E-Mails. Aus Gründen der rechtlichen Sicherheit sollten daher alle Versionen der E-Mail archiviert werden. Rechtlich besteht nach uns vorliegenden Informationen kein Zwang, mehrere Varianten einer E-Mail zu archivieren, die sich nur in Bezug auf die Mailheader unterscheiden. Dennoch sollten nach den uns vorliegenden Informationen pragmatisch betrachtet alle Exemplare der betreffenden E-Mail (M1, M2, M3 usw.) archiviert werden. Rein formell (und technisch anhand der unterschiedlichen Checksummen sofort nachvollziehbar) handelt es sich de facto um unterschiedliche E-Mails. Aus Gründen der rechtlichen Sicherheit sollten daher alle Versionen der E-Mail archiviert werden.
duplikatserkennung.1511444526.txt.gz · Zuletzt geändert: 2017/11/23 13:42 von lwsystems