Инструменты пользователя

Инструменты веб-сайта


обнаружение дубликатов

Это старая версия документа!


Если электронные письма доставляются в Benno MailArchiv для архивирования несколько раз, активируется функция обнаружения дубликатов в Benno MailArchiv.

Обнаружение дубликатов

В процессе архивирования Benno MailArchiv генерирует контрольную сумму SHA256 для каждого заархивированного электронного письма. Эта сумма записывается во внутренний журнал Benno MailArchiv и используется для проверки согласованности (соответствия требованиям).

Как это работает

Die Checksumme wird jeweils über die gesamte E-Mail erzeugt. So kann direkt beim Archivieren einer E-Mail geprüft werden, ob eine Mail mit gleicher Prüfsumme evtl. bereits im Archiv vorhanden ist. Eine etwaige gleiche Checksumme würde bedeuten, dass die zu archivierende Mail bereits im Archiv abgelegt wurde, also eine Doublette wäre. Die Archivierung der betreffenden Mail würde in diesem Fall abgebrochen und das Erkennen des Duplikats entsprechend im Archivierungs-Logfile /var/log/benno/archive.log protokolliert. Zusätzlich wird der nicht erfolgte Archivierungsvorgang des Duplikats im Journal mit Prüfsumme und dem Hinweis „DUPLICATE“ protokolliert.

Dank dieser wirksamen Doubletten-Erkennung können E-Mails beliebig oft zur Archivierung an Benno MailArchiv übergeben werden. Sie werden zuverlässig als Doubletten erkannt und ihre Archivierung als Duplikat abgebrochen, so dass jede Mail tatsächlich nur einmal in das Mailarchiv gelangt. Durch die SHA265-Prüfsumme ist mit an Sicherheit grenzender Wahrscheinlichkeit ausgeschlossen, dass E-Mails jemals versehentlich als Doublette erkannt und damit irrtümlich nicht archiviert werden. Da die gesamte E-Mail für die Erzeugung der Checksumme herangezogen wird, bedeutet dies bzgl. der Konsistenzprüfung von archivierten E-Mails bzw. der Konsistenzprüfung des gesamten Archivs, dass bereits das „Kippen“ eines einziges Bits einer archivierten E-Mail ausreicht, um die Checksumme der Mail zu verändern, und somit eine Korruption der Mail/des Archivs festzustellen ist.

Многократная доставка почты в сложных условиях

В то время как электронные письма обычно (особенно в локальных системах) попадают в почтовый архив по одному единому пути, в сложных средах (например, в крупных хостинговых инфраструктурах) электронные письма могут передаваться в архив несколько раз и одновременно по разным путям. Например, за это могут отвечать различные MTA или методы и типы передачи (SMTP, IMAP и т. д.).

Пример

В условиях сложной инфраструктуры Benno MailArchiv получает для архивирования определенное электронное письмо «M» по трем различным маршрутам. Поскольку каждая копия письма передается по этим разным маршрутам, само письмо (с точки зрения пользователя в почтовом клиенте – то есть, с точки зрения текста и содержимого) остается одинаковым. Однако в копиях писем (в той части, которая обычно не видна пользователю) для каждой копии вставлены отдельные и разные заголовки из-за различных маршрутов передачи.

Три электронных письма (которые с точки зрения пользователя выглядят идентичными), согласно функции обнаружения дубликатов Benno MailArchiv, являются тремя разными письмами: генерация контрольной суммы SHA256 для каждого из трех писем дает контрольные суммы «C1», «C2» и «C3». С точки зрения содержимого (текста и с точки зрения пользователя) письма выглядят идентичными. Однако из-за разных заголовков каждого письма Benno MailArchiv логически и правильно идентифицирует их как три разных письма (из-за разных контрольных сумм). Следовательно, Benno MailArchiv архивирует эти три письма как три отдельных письма. С точки зрения пользователя, они будут видны в архиве три раза, поскольку будут найдены и отображены с использованием одних и тех же критериев поиска, основанных на теле письма.

Для обеспечения подходящей реализации в данной ситуации (архивирование каждого электронного письма только один раз) рекомендуется следующий сценарий:

Электронное письмо однозначно идентифицируется по перечисленным ниже заголовкам, а также по тексту сообщения:

Envelope-From - X-REAL-MAILFROM Envelope-To - X-REAL-RCPTTO Return-Path Subject Message-Id Date From To Cc Body

Два электронных письма, M1 и M2, которые не отличаются по вышеупомянутым характеристикам, идентичны по содержанию и принадлежности отправителю/получателю. Если хотя бы одно из этих полей отличается, то два электронных письма, M1 и M2, не являются идентичными.

Другие заголовки электронных писем, такие как «Получено», подписи DKIM и т. д., не имеют прямого отношения к содержимому письма. Эти заголовки скорее являются частью «конверта» письма (подобно маркам и стикерам на контракте, который обрабатывает компания).

Исходя из этой ситуации, вычисление контрольной суммы будет выполняться двумя способами. Во-первых, стандартная контрольная сумма, необходимая для соблюдения правил, будет сгенерирована для всего электронного письма (как и прежде). Одновременно будет сгенерирована вторая контрольная сумма исключительно для указанной выше части электронного письма. Это позволит легко обнаруживать дубликаты писем, которые кажутся пользователю идентичными.

Требования к соблюдению норм в соответствии с GoBD

Согласно немецким принципам надлежащего учета (GoBD), каждое электронное письмо должно быть восстанавливаемо из архива в исходном состоянии (т. е., в том числе, со всеми заголовками, вложениями и т. д.). Кроме того, каждое электронное письмо должно быть проверяемым на предмет любых манипуляций, что достигается с помощью стандартной контрольной суммы.

Однако, если на архивирование поступает несколько писем (идентичных по содержанию и тексту) M1, M2 и M3 (различные копии одного и того же письма в указанном выше смысле), как следует обрабатывать их с учетом различий в заголовках?

Eine rechtliche Sicht auf diese Situation

Согласно имеющейся у нас информации, нет юридического обязательства архивировать несколько версий электронного письма, отличающихся только заголовками. Тем не менее, с прагматической точки зрения, все копии рассматриваемого электронного письма (M1, M2, M3 и т. д.) должны быть заархивированы. С чисто формальной точки зрения (и это можно сразу проверить технически на основе различных контрольных сумм), это фактически разные электронные письма. Следовательно, для обеспечения юридической определенности все версии электронного письма должны быть заархивированы. Технически, используя две контрольные суммы — то есть упрощенное обнаружение дубликатов, описанное выше, — было бы легко заархивировать только первую из копий электронного письма с идентичным содержимым.

Для внедрения решения, соответствующего законодательству, мы рекомендуем обсудить этот вопрос с выбранным вами юрисконсультом до начала внедрения и только после этого принимать решение о конкретной форме обнаружения дубликатов и внедрять ее.

В настоящее время мы исходим из того, что может применить упрощенный метод обнаружения дубликатов и, таким образом, архивировать только одну из нескольких полученных копий электронных писем. Кроме того, мы предполагаем, что подходящего объяснения или записи фактов в (обязательной в соответствии с Законом о защите прав потребителей) процессуальной документации должно для обеспечения архивирования в соответствии с законодательством.

Решение о типе используемого метода обнаружения дубликатов, а следовательно, и об ответственности перед налоговыми органами, полностью на операторе.

Юридическое уведомление / Отказ от ответственности

Данный документ не является юридической консультацией. Он предназначен исключительно для предоставления общей информации. Мы не несем ответственности за точность или полноту предоставленной информации. Вся ответственность исключается.

duplikatserkennung.1511444487.txt.gz · Zuletzt geändert: 2017/11/23 13:41 von lwsystems