Инструменты пользователя

Инструменты веб-сайта


обнаружение дубликатов

Если электронные письма доставляются в Benno MailArchiv для архивирования несколько раз, активируется функция обнаружения дубликатов в Benno MailArchiv.

Обнаружение дубликатов

В процессе архивирования Benno MailArchiv генерирует контрольную сумму SHA256 для каждого заархивированного электронного письма. Эта сумма записывается во внутренний журнал Benno MailArchiv и используется для проверки согласованности (соответствия требованиям).

Как это работает

Контрольная сумма генерируется для всего полученного электронного письма. Заголовки, определенные в конфигурационном файле, исключаются из расчета контрольной суммы. Эти заголовки объявлены. Обычно они добавляются интерфейсом импорта и, следовательно, никогда не являлись частью фактического электронного письма.

При архивировании электронного письма система проверяет, существует ли уже в архиве письмо с той же контрольной суммой. Идентичная контрольная сумма указывает на то, что архивируемое письмо уже сохранено и, следовательно, является дубликатом. В этом случае процесс архивирования данного письма будет прерван, а обнаружение дубликата будет зарегистрировано в файле журнала архивирования /var/log/benno/archive.log. Кроме того, неудачная архивация дубликата регистрируется в журнале ( /srv/benno/archive/repo/{yyyy}/journal/current.journal ) с указанием контрольной суммы и примечанием «DUPLICATE».

Благодаря эффективному обнаружению дубликатов, электронные письма можно отправлять в Benno MailArchiv для архивирования столько раз, сколько необходимо. Они надежно идентифицируются как дубликаты, и их архивирование прерывается, гарантируя, что каждое письмо будет заархивировано только один раз. Контрольная сумма SHA256 практически исключает возможность ошибочной идентификации писем как дубликатов и, следовательно, ошибочного неархивирования. Поскольку для генерации контрольной суммы используется все письмо целиком, это означает, что при проверке целостности заархивированных писем или проверке целостности всего архива даже изменение одного бита в заархивированном письме достаточно, чтобы изменить контрольную сумму письма и, таким образом, указать на повреждение письма/архива.

Многократная доставка почты в сложных условиях

В то время как электронные письма обычно (особенно в локальных системах) попадают в почтовый архив по одному единому пути, в сложных средах (например, в крупных хостинговых инфраструктурах) электронные письма могут передаваться в архив несколько раз и одновременно по разным путям. Например, за это могут отвечать различные MTA или методы и типы передачи (SMTP, IMAP и т. д.).

В этом случае хорошей идеей будет упрощенной контрольной суммы

Пример

В условиях сложной инфраструктуры Benno MailArchiv получает для архивирования определенное электронное письмо «M» по трем различным маршрутам. Поскольку каждая копия письма передается по этим разным маршрутам, само письмо (с точки зрения пользователя в почтовом клиенте – то есть, с точки зрения текста и содержимого) остается одинаковым. Однако в копиях писем (в той части, которая обычно не видна пользователю) для каждой копии вставлены отдельные и разные заголовки из-за различных маршрутов передачи.

Три электронных письма (которые с точки зрения пользователя выглядят идентичными), согласно функции обнаружения дубликатов Benno MailArchiv, являются тремя разными письмами: генерация контрольной суммы SHA256 для каждого из трех писем дает контрольные суммы «C1», «C2» и «C3». С точки зрения содержимого (текста и с точки зрения пользователя) письма выглядят идентичными. Однако из-за разных заголовков каждого письма Benno MailArchiv логически и правильно идентифицирует их как три разных письма (из-за разных контрольных сумм). Следовательно, Benno MailArchiv архивирует эти три письма как три отдельных письма. С точки зрения пользователя, они будут видны в архиве три раза, поскольку будут найдены и отображены с использованием одних и тех же критериев поиска, основанных на теле письма.

Для обеспечения подходящей реализации в данной ситуации (архивирование каждого электронного письма только один раз) рекомендуется следующий сценарий:

Электронное письмо однозначно идентифицируется по перечисленным ниже заголовкам, а также по тексту сообщения:

Envelope-From - X-REAL-MAILFROM Envelope-To - X-REAL-RCPTTO Return-Path Subject Message-Id Date From To Cc Body

Два электронных письма, M1 и M2, которые не отличаются по вышеупомянутым характеристикам, идентичны по содержанию и принадлежности отправителю/получателю. Если хотя бы одно из этих полей отличается, то два электронных письма, M1 и M2, не являются идентичными.

Другие заголовки электронных писем, такие как «Получено», подписи DKIM и т. д., не имеют прямого отношения к содержимому письма. Эти заголовки скорее являются частью «конверта» письма (подобно маркам и стикерам на контракте, который обрабатывает компания).

Исходя из этой ситуации, вычисление контрольной суммы будет выполняться двумя способами. Во-первых, стандартная контрольная сумма, необходимая для соблюдения правил, будет сгенерирована для всего электронного письма (как и прежде). Одновременно будет сгенерирована вторая контрольная сумма исключительно для указанной выше части электронного письма. Это позволит легко обнаруживать дубликаты писем, которые кажутся пользователю идентичными.

Требования к соблюдению норм в соответствии с GoBD

Согласно немецким принципам надлежащего учета (GoBD), каждое электронное письмо должно быть восстанавливаемо из архива в исходном состоянии (т. е., в том числе, со всеми заголовками, вложениями и т. д.). Кроме того, каждое электронное письмо должно быть проверяемым на предмет любых манипуляций, что достигается с помощью стандартной контрольной суммы.

Однако, если на архивирование поступает несколько писем (идентичных по содержанию и тексту) M1, M2 и M3 (различные копии одного и того же письма в указанном выше смысле), как следует обрабатывать их с учетом различий в заголовках?

Рассмотрим правовые аспекты этой ситуации

Согласно имеющейся у нас информации, нет юридического обязательства архивировать несколько версий электронного письма, отличающихся только заголовками. Тем не менее, с прагматической точки зрения, все копии рассматриваемого электронного письма (M1, M2, M3 и т. д.) должны быть заархивированы. С чисто формальной точки зрения (и это можно сразу проверить технически на основе различных контрольных сумм), это фактически разные электронные письма. Следовательно, для обеспечения юридической определенности все версии электронного письма должны быть заархивированы. Технически, используя две контрольные суммы — то есть упрощенное обнаружение дубликатов, описанное выше, — было бы легко заархивировать только первую из копий электронного письма с идентичным содержимым.

Для внедрения решения, соответствующего законодательству, мы рекомендуем обсудить этот вопрос с выбранным вами юрисконсультом до начала внедрения и только после этого принимать решение о конкретной форме обнаружения дубликатов и внедрять ее.

В настоящее время мы исходим из того, что может применить упрощенный метод обнаружения дубликатов и, таким образом, архивировать только одну из нескольких полученных копий электронных писем. Кроме того, мы предполагаем, что подходящего объяснения или записи фактов в (обязательной в соответствии с Законом о защите прав потребителей) процессуальной документации должно для обеспечения архивирования в соответствии с законодательством.

Решение о типе используемого метода обнаружения дубликатов, а следовательно, и об ответственности перед налоговыми органами, полностью на операторе.

Юридическое уведомление / Отказ от ответственности

Данный документ не является юридической консультацией. Он предназначен исключительно для предоставления общей информации. Мы не несем ответственности за точность или полноту предоставленной информации. Вся ответственность исключается.

duplicate detection.txt Последнее изменение: 08.06.2022 14:12 lwsystems