В силу чрезвычайно высокой прибыльности спамерского бизнеса технические средства борьбы со спамом не всегда достигают своей цели — спамеры без конца изобретают все новые и новые способы обхода фильтров. Поэтому для эффективного противодействия распространению незапрошенных электронных сообщений необходимо объединение различных усилий — технологических (производство программного обеспечения), политических (принятие законов) и общественных (разъяснение малому бизнесу, чем вреден спам).
Таким образом, спам как комплексная проблема требует комплексного решения, включающего следующие элементы:
Для эффективной борьбы со спамом требуется не только взаимодействие разных субъектов, но и активная позиция всех участников. Сложность проблемы обусловливает относительно длительные сроки ее решения; однако в целях повышения общественной значимости борьбы со спамом необходимо уже в кратчайшие сроки обеспечить достижение «промежуточных побед». |
- просвещение (образовательная деятельность);
- организационная деятельность;
- технологические меры;
- законодательство (правоприменение1).
Для эффективной борьбы со спамом требуется не только взаимодействие разных субъектов, но и активная позиция всех участников. Сложность проблемы обусловливает относительно длительные сроки ее решения; однако в целях повышения общественной значимости борьбы со спамом необходимо уже в кратчайшие сроки обеспечить достижение «промежуточных побед». В рамках решения проблемы следует также широко использовать международный опыт, накопленный в этой области.
Просвещение граждан
Необходимо разъяснять в средствах массовой информации, что:
- спам приносит вред не только его получателю, но и заказчику, распространителю, а также государству и обществу в целом;
- спам — незаконен и создает множество проблем;
- спам — неэтичен и вызывает раздражение пользователей;
- существуют технические средства борьбы со спамом;
- существуют юридические средства борьбы;
- существуют законные альтернативы для рекламы товаров и услуг.
При этом необходимо доводить до сведения пользователей всю информацию о спамерах: кто они, каковы методы их работы, существуют ли методы противодействия им и т.д. Следует также популяризовать имеющийся международный опыт борьбы со спамом и наладить распространение зарекомендовавших себя на практике рекомендаций.
Организационная работа
Работа с конечными пользователями:
- необходимо организовать противодействие спаму на уровне конечных пользователей, для чего следует разработать и распространить рекомендации по использованию информационных систем.
Организационная деятельность на уровне операторов услуг и провайдеров:
- внедрение единообразной практики применения белых и черных списков;
- создание и распространение рекомендаций по использованию технологических фильтров;
- организация взаимодействия с зарубежными операторами и объединениями операторов.
Организованное взаимодействие на уровне рекламодателей:
- пропаганда альтернативных спаму легальных (законных) способов рекламной деятельности;
- разработка кодексов делового поведения.
Взаимодействие на профессиональном, региональном и национальном уровнях:
- создание коалиций по борьбе со спамом;
- налаживание сотрудничества с зарубежными ассоциациями и организациями.
Взаимодействие ИТ-индустрии с государственными органами:
- разработка планов совместных действий и форм совместной работы;
- поддержка борьбы со спамом на межправительственном (региональном, глобальном) уровне.
Технологические инструменты (программное обеспечение)
На сегодняшний день состояние индустрии производства программного обеспечения для борьбы со спамом можно оценивать в целом как еще незрелое. Каждый месяц появляется множество новых продуктов для фильтрации спама и предложений по реорганизации Интернета и электронной почты. Однако до сих пор в компьютерном сообществе не выработано понимания того, что именно должны делать эти средства, какие функции они должны включать, какой процент распознавания спама и ложных тревог допустим, как тестировать программы фильтрации, на каких массивах писем и многое другое.
На сегодняшний день состояние индустрии производства программного обеспечения для борьбы со спамом можно оценивать в целом как еще незрелое. В компьютерном сообществе до сих пор не выработано понимание того, что именно должны делать средства фильтрации спама, какие функции они должны включать, какой процент распознавания спама и ложных тревог допустим, как тестировать программы фильтрации, на каких массивах писем и многое другое. |
Ниже рассматриваются методы фильтрации, используемые сегодня в коммерческих программных продуктах, предназначенных для выявления спама.
Процедурные методы борьбы со спамом
Существует определенное количество методов, которые реализуют идею аутентификации (проверки подлинности) отправителя.
Карантин. Присланное письмо пропускается через фильтр, если отправитель известен (находится в белом списке). В противном случае письмо помещается в карантин. Далее пользователь может вручную проверить задержанные письма и добавить адреса в белый список.
Проверка существования отправителя. Любое письмо от неизвестного корреспондента задерживается в карантине, а отправителю направляется запрос с требованием подтвердить высылку письма.
Системы с запросом к отправителю (challenge response systems) используются для повышения издержек при рассылке спама. Если такая система определяет письмо как спам, то отправителю высылается запрос. При этом адресат сможет получить письмо только после того, как отправитель ответит на запрос. Все запросы подразделяются на три общие категории: запросы для человеческого интеллекта, вычислительные запросы и денежные запросы.
Запросы для человеческого интеллекта (human challenges), в том числе тесты HIP2, CAPTCHA3 или обратные тесты Тьюринга4, могут представлять собой, например, приведенную здесь картинку.
В данном случае отправитель должен ввести буквы, изображенные в виде графического образа. Подобную задачу может решить практически любой человек, однако если запрос составлен достаточно хорошо, то сегодня это будет не под силу ни одному компьютеру.
В случае с вычислительными запросами (computational challenges) компьютерная система должна решить некоторую головоломку. Если провести аналогию, получатель письма как бы предлагает отправителю головоломку, кусочки которой находятся в случайном порядке. Отправитель должен найти правильное положение кусочков головоломки и отослать решение получателю. Компьютерная система получателя проверяет правильность решения и затем перемещает письмо из папки «Спам» в папку «Входящие». Головоломка должна быть такой, чтобы получатель мог бы быстро ее создать и так же быстро проверить правильность решения, но при этом само решение потребовало бы от отправителя значительного времени. Преимущество вычислительных запросов заключается в том, что они могут быть полностью автоматизированы. Если имеется стандарт на вычислительные запросы, то можно настроить компьютер таким образом, чтобы он автоматически отвечал на все вычислительные запросы по отправленным пользователем письмам. В таком случае эти запросы никогда не будут отвлекать пользователя — он отправит письмо, система получателя письма автоматически вышлет запрос, система пользователя автоматически ответит, и адресат в конце концов получит письмо. Чтобы не дать возможности спамерам автоматически решать головоломки, требуемый объем вычислений должен быть очень большим и занимать от 30 секунд до 5 минут. Если головоломка решается слишком просто — скажем, если на ее решение требуется от 1 до 5 секунд — тогда спамеры смогут позволить себе купить достаточное количество компьютеров, которые смогут решать все эти головоломки и продолжать рассылать спам.
Системы с запросом к отправителю могут комбинироваться с другими системами. Такое сочетание методов позволит сократить количество людей, которым будут направляться запросы, однако при этом небольшое количество спама все же сможет обойти защиту. |
И наконец, есть еще такой метод блокирования спама, как системы с микроплатежами (micropayment systems). В таких системах получатель письма просит отправителя направить ему небольшую сумму денег — например, несколько центов — посредством той или иной онлайновой банковской системы. При этом получатель забирает деньги только в том случае, если сообщение является спамом. Однако у этого метода есть и обратная сторона — он может провоцировать злоупотребления со стороны получателей писем, которые обманом могут побуждать людей посылать им сообщения, предъявлять такого рода запрос и затем забирать их деньги. Возможной альтернативой в этом случае является передача всех собранных таким образом денег на благотворительные нужды или интернет-провайдеру получателя.
Системы с запросом к отправителю могут комбинироваться с другими системами. Так, они обычно используются в сочетании с белыми списками. Людям, внесенным в белый список, запросы не направляются. В случае если какой-либо другой адресат однажды ответит на запрос, то он автоматически добавляется в белый список, и тогда он никогда больше не будет получать запросы. Кроме того, системы с запросом к отправителю могут комбинироваться с детекторами спама (обучаемыми системами или системами с поиском совпадений). Запросы будут направляться только по тем письмам, которые помечены фильтром как спам и отправители которых отсутствуют в белом списке. Такое сочетание методов позволит сократить количество людей, которым будут направляться запросы, однако при этом небольшое количество спама все же сможет обойти защиту.
Существуют также системы с запросами по типу банковской системы5 (bankable systems). Один из вариантов такой системы предполагает, что пользователь имеет некий счет, на который зачисляются какие-то символические денежные суммы (tokens), получаемые, возможно, одним из трех способов: выполнение определенных вычислений, решение задач для человеческого интеллекта или внесение реальных денег. Запрос представляет собой затребование определенной символической суммы со счета отправителя, которая в дальнейшем может либо возвращаться отправителю, если это будет нормальное сообщение, либо сниматься с его счета, если получатель заявит, что присланное ему сообщение является спамом.
Преимуществом таких систем с запросами является то, что они могут служить более серьезным препятствием для спамеров. Любому человеку не захочется выполнять вычисления, которые займут у него час работы на компьютере, или решать сложную, адресованную ему лично задачу, или платить 25 центов — и все это только для того, чтобы отправить сообщение. Но если его сообщение не является спамом и он лично знает адресата, то он готов рискнуть символической суммой, которая достается ему такой ценой. Поскольку адресат, надо полагать, порядочный человек, то он вернет эту сумму, когда обнаружит, что полученное им сообщение не является спамом. Однако если спамер попробует сделать то же самое, то он быстро истратит значительную сумму денег — больше, чем он зарабатывает, рассылая спам.
Самым серьезным недостатком систем с запросом к отправителю является то, что большинство ложных срабатываний в системах фильтрации приходится на коммерческую почту. Более того, чтобы обеспечить эффективность вычислительных запросов, необходимы слишком крупные затраты на их автоматическое решение в массовом порядке. |
Таким образом, системы с запросами банковского типа позволяют сделать издержки спамеров очень высокими, тогда как затраты обычных отправителей близки к нулю. С другой стороны, этот вариант несколько более сложен. Здесь требуется либо организация единого всемирного банка (при этом сразу же возникают вопросы, кто им будет управлять, кто будет платить за его работу, должен ли он функционировать с прибылью или с убытками и т.д.), либо создание сети банков (тогда как узнать, каким банкам можно доверять?). Применение таких систем также предполагает, что учетная запись отправителя должна сразу же блокироваться после каждого отсылаемого сообщения, чтобы не позволить тому, у кого на счету всего 1 доллар, распространить миллион писем. Однако это означает выполнение лишней операции (или даже пары операций) для каждого сообщения, пересылаемого по Интернету, что может привести к дополнительным расходам. При этом совершенно неясно, кто должен оплачивать такие издержки.
Другой вариант использования системы с запросом к отправителю предполагает, что характер запроса заранее определяется самим отправителем. Перед отсылкой сообщения человек должен всегда либо выполнить какое-нибудь вычисление, либо приложить документ на символический платеж или реальный возвращаемый микроплатеж. Это позволяет избежать задержек, связанных с передачей запросов туда и обратно, но в то же время может заставить отправителей выполнять ненужные вычисления. Любая система, основанная исключительно на предварительных решениях, по мнению Microsoft, представляется неработоспособной, поскольку тот человек, кто заранее не произвел вычисления, так никогда и не узнает, что его сообщения отклонены. Тем не менее наличие такой возможности в системах с запросом к отправителю могло бы быть весьма желательным.
Системы с запросом к отправителю имеют ряд существенных недостатков. Некоторые запросы для человеческого интеллекта чрезвычайно просты и могут решаться автоматически с помощью компьютеров. Например, в тех случаях, когда задаются вопросы с несколькими вариантами ответов, компьютер может просто угадывать их случайным образом, что позволит чрезмерному количеству спама обойти защиту. Спамеры также находят различные способы для нахождения себе помощников или использования чужих компьютеров. Так, они могут привлекать сторонних людей к решению задач для человеческого интеллекта, либо выплачивая им вознаграждение (например, старшеклассникам или людям из стран с очень низким уровнем доходов), либо предоставляя бесплатный доступ к определенному онлайновому контенту (порнографии, бесплатным поздравительным открыткам, архивам новостей и т.д.).
Системы с запросом к отправителю, реализованные на базе HIP и вычислительных задач, не имеют больших преимуществ перед фильтрами. С другой стороны, у них есть несомненный плюс: эти системы гарантируют, что любой достаточно заинтересованный отправитель может добиться, чтобы его письмо попало к адресату. |
Но что еще хуже, они могут найти возможности, чтобы скрытым образом задействовать чужие компьютеры для решения вычислительных запросов. Авторы вирусов уже начали использовать инфицированные компьютеры для распространения спама; однако такая рассылка довольно быстро блокируется, поскольку интернет-провайдер отправителя сообщает ему об этом или закрывает его учетную запись. Тем не менее, если вирус решает вычислительные задачи в фоновом режиме с низким приоритетом, не мешая использованию компьютера, и ответ передается на другой компьютер, то вычисляющий компьютер не может быть обнаружен. При этом владелец «заблудшего» компьютера может никогда и не узнать о том, что его машина используется для рассылки спама. Даже если ему об этом и сообщить, то выясняется, что у него слишком мало стимулов для устранения вируса. Другая проблема заключается в том, что некоторые некачественно реализованные системы с запросом к отправителю плохо работают со списками рассылки (они могут направлять запросы по всем разосланным письмам и даже направлять свой запрос в саму рассылку).
Возможно, самым серьезным недостатком систем с запросом к отправителю является то, что большинство ложных срабатываний6 в системах фильтрации приходится на коммерческую почту. Фильтры почти никогда не ошибаются при работе с частной корреспонденцией, поскольку личные письма не похожи на спам. При этом они зачастую принимают за спам нормальную коммерческую почту. Однако множество компаний не может себе позволить оплачивать услуги сторонних людей, которые решали бы задачи для человеческого интеллекта. Более того, чтобы обеспечить эффективность вычислительных запросов, необходимы слишком крупные затраты на их автоматическое решение в массовом порядке.
С учетом всего вышесказанного можно сделать вывод, что системы с запросом к отправителю, реализованные на базе HIP и вычислительных задач, не имеют больших преимуществ перед фильтрами. С другой стороны, у них есть несомненный плюс: эти системы гарантируют, что любой достаточно заинтересованный отправитель может добиться, чтобы его письмо попало к адресату. В поддержку такой гарантии можно привести также немало и других доводов. Системы микроплатежей с возвратом не имеют указанного недостатка, поскольку для обычных отправителей они обходятся очень дешево или вообще не стоят ничего, но при этом такие системы наиболее сложны для реализации.
Кратковременные (отключаемые) электронные адреса. Еще один из способов борьбы со спамом — это создание кратковременных (ephemeral), или отключаемых (disposable), адресов электронной почты. В этом случае пользователь дает каждому человеку, с которым он переписывается, свой отдельный адрес. Если же на какой-либо из этих адресов начнет поступать спам, то его можно просто уничтожить одним нажатием кнопки. В результате все письма, адресованные на него в будущем, будут возвращаться с отказом.
Кратковременные адреса имеют много преимуществ, но с ними связан и ряд трудностей. Во-первых, возникает вопрос, какой адрес указывать на визитной карточке или на персональной веб-странице. Кроме того, такие адреса должны быть достаточно длинными, чтобы спамеры не могли их угадать. Как правило, это означает, что в них надо добавить строку случайных букв и цифр. Поэтому такие адреса очень трудны для запоминания. Кроме того, может возникнуть и такая ситуация. Если отправить одно сообщение двум людям и дать им разные адреса, то какой адрес необходимо указать в поле «От кого» (From). И наконец, многие решения против спама могут быть реализованы либо в клиентском программном обеспечении (например, в Microsoft Outlook), либо в серверном (например, в Microsoft Exchange Server). Кратковременные электронные адреса требуют изменений как в клиенте, так и на сервере (в клиенте — чтобы включить в пользовательский интерфейс кнопки блокировки и кнопки для генерации новых адресов; на сервере — чтобы письма, направленные на разные адреса, попадали в один и тот же почтовый ящик). Многие пользователи обладают контролем над своей программой-клиентом, но не над сервером, а необходимость изменений в двух местах означает, что это решение смогут использовать только те пользователи, которые сменят как клиентское, так и серверное программное обеспечение.
«Электронные марки» (метки) и сертификаты. В настоящее время во многих ассоциациях по борьбе со спамом и в онлайновом сообществе активно обсуждается идея создать систему аутентификации отправителей на основе цифровой подписи, сертификата отправителя и т.д. С технической точки зрения здесь все представляется очень простым: нужно снабдить каждое письмо той или иной «электронной маркой» (меткой), а каждый почтовый сервер — средствами верификации таких марок, что не позволит принимать никакой другой почты. Однако социальные аспекты данной идеи являются основным камнем преткновения. Такой метод, безусловно, будет работать, но потребует модификации протоколов пересылки почты и в любом случае — создания фактического глобального стандарта, что совсем не просто в условиях, когда электронной почтой пользуется около 500 млн. человек в более чем 100 странах мира.
Черные списки включают перечни адресов отправителей спама; они составляются примерно таким же образом, как работают системы с поиском совпадений, — либо на основе жалоб пользователей, либо с помощью «ловушек». Часто в черные списки попадают открытые прокси-серверы и открытые почтовые пересылки. |
Распределенные методы распознавания спама
Технически спам можно фильтровать двумя основными способами: по формальным признакам сообщения (по обратному адресу, способу посылки и оформлению) и по его содержанию ( то есть по его смыслу, семантически).
Формальные методы
Черные списки (Blackhole Lists). Спамеры должны посылать свои письма откуда-то. Оказывается, что строку «Откуда» (From), как и большинство других элементов электронного письма, крайне легко фальсифицировать. Однако IP-адрес, с которого приходит сообщение, — то есть его интернет-адрес — подделать почти невозможно. Черные списки включают перечни адресов отправителей спама; они составляются примерно таким же образом, как работают системы с поиском совпадений, — либо на основе жалоб пользователей, либо с помощью «ловушек». Часто в черные списки попадают открытые прокси-серверы и открытые почтовые пересылки.
Черные списки имеют ряд недостатков. Есть случаи, когда на составителей этих списков подавали в суд, обвиняя их в распространении порочащих сведений. Кроме того, есть трудности с их быстрым обновлением. Тем, кто уже попал в черные списки (а это могут быть невинные жертвы спамеров, использующих дыры в системе безопасности), порой непросто добиться удаления оттуда, после того как дыры были заделаны. Некоторые поставщики черных списков проявляют излишнюю активность в добавлении IP-адресов и вносят даже адреса тех, кто не рассылал спама, но, возможно, способствовал спамерам ввиду отсутствия должного порядка в хранении других IP-адресов. Так, некоторые IP-адреса являются источниками как спама, так и нормальных писем — например, динамические IP-адреса, выделяемые провайдером абонентам коммутируемого доступа, однако черные списки не различают этого. Черные списки, как правило, реализуются на уровне маршрутизаторов, что не позволяет использовать белые списки, поэтому пользователи, чьи друзья внесены в черные списки, не имеют возможности получить от них письмо.
Белые списки (Safe Lists). Белые списки, или безопасные списки, — это одна из самых распространенных технологий, которая работает в сочетании с обучаемыми фильтрами, системами с поиском совпадений и системами с запросом к отправителю. В белые списки включают тех людей, которые зарекомендовали себя как добропорядочные отправители. Как правило, это индивидуальные пользователи, хотя в некоторых системах могут быть указаны целые домены. Если обучаемая система помечает сообщение как спам, но отправитель записан у пользователя в белом списке, то сообщение все же доходит до адресата. Таким образом этот метод блокирования спама помогает уменьшить вред от ложных срабатываний.
Белые списки, или безопасные списки, — это одна из самых распространенных технологий, которая работает в сочетании с другими методами блокирования спама. Ее использование помогает уменьшить вред от ложных срабатываний. |
Некоторые пользователи даже предпочитают крайний вариант использования белых списков — «эксклюзивный режим». В этом случае пропускается почта только от тех пользователей, которые внесены в белый список. Все остальные сообщения помещаются в папку «Спам». Пользователи могут просматривать эту папку, проверяя, не попала ли случайно туда какая-нибудь нужная корреспонденция. Для некоторых категорий пользователей — для детей или для тех, кто не получает писем от незнакомых людей, — это может быть хорошим вариантом, но только в крайнем случае. Эксклюзивный режим может осложнить ведение электронной коммерции, поскольку невозможно заранее предсказать, например, с какого адреса будет выслана квитанция. Кроме того, если кто-нибудь из друзей по переписке сменит свой адрес электронной почты, может оказаться, что его письмо будет потеряно или, как минимум, отложено, пока адресат не заглянет в папку «Спам».
В целом белые списки не очень надежны. Фальсификация адресов отправителей осуществляется в Интернете необычайно просто, а используемый почтовый протокол, по существу, позволяет любому человеку выдать себя за другого. Многие пользователи вносят в белый список себя или своих друзей. Это служит одной из причин, почему можно получить спам как бы «от самого себя»: таким образом спамер пытается использовать белый список пользователя против него самого. Так, например, сотрудники группы обучаемых систем и прикладной статистики (Machine Learning and Applied Statistics Group) в подразделении Microsoft Research иногда получают спам якобы от своих сослуживцев. Видимо, какие-то «умные» спамеры увидели, что эти адреса приводятся вместе на одних и тех же веб-страницах, и предположили, что их владельцы внесли друг у друга в белые списки или, как минимум, открывают письма, пришедшие от других сотрудников группы.
Формальные правила. Формальные правила проверяют способ посылки письма и его оформление. К типичным признакам спамерского письма относятся отсутствие адреса отправителя, отсутствие или наличие слишком большого числа получателей, отсутствие IP-адреса в системе DNS7, сфальсифицированные или некорректные служебные заголовки8 и т.п. Часто также производится фильтрация по размеру и формату сообщения. Набор правил антиспамерской программы может содержать сотни и даже тысячи элементов.
Лингвистические методы
Сигнатуры. Для каждого спамерского письма может быть автоматически создана так называемая сигнатура, позволяющая распознать это письмо, иногда даже с небольшими модификациями. Сигнатуры — это своего рода слепки письма, белее короткие, чем само письмо, но идентифицирующие его достаточно точно. Используются самые разнообразные сигнатуры: список наиболее часто встречающихся слов письма, вектор служебных слов, контрольные суммы байт каждых пяти слов, свертки скользящих по тексту окон (шинглы) и т.д. Достоинство сигнатур заключается в том, что они почти не дают ложных срабатываний.
Лингвистические эвристики. Это наборы терминов (слов и словосочетаний), характерных для спама, вместе с их вероятностными показателями (вероятностью встретиться в спамерском письме). Преимущество эвристик состоит в том, что они позволяют распознать совершенно новое спамерское письмо благодаря ограниченности возможностей языка спамеров, а недостаток — что они требуют кропотливой ручной работы с письмами.
Самообучающиеся байесовские фильтры. Основная идея статистических категоризаторов текстов состоит в том, что текст можно рассматривать как «случайную» последовательность слов и пытаться описать эту последовательность с помощью неких усредненных характеристик. Одна из наиболее простых характеристик — это относительные частоты, с которыми различные слова встречаются в тексте. Кажется совершенно очевидным, что текст, в котором каждое десятое слово — «фильтр», а каждое восьмое — «спам», имеет отношение к фильтрации спама. На этой простой идее основано множество инструментов, предназначенных для фильтрации спама.
Непосредственное использование метода Байеса в условиях массовой почтовой службы затруднительно, в основном по причине большого разнообразия словарного состава клиентских ящиков. Формула Байеса полезна только тогда, когда события, вероятности которых входят в расчет, — независимы. Однако такое предположение, когда в качестве событий выступают встречающиеся в тексте слова, является неверным. |
К основным недостаткам таких частотных фильтров можно отнести следующее:
- слова в тексте рассматриваются как независимые, что весьма далеко от истины;
- как правило, слова не нормализуются, то есть грамматические формы одного и того же слова считаются разными словами; это не очень важно для английского языка, но имеет большое значение для русского языка с его многообразием лексических форм;
- создатель фильтра должен оценить, какие слова и с какими относительными частотами будут значимыми для принятия решения о содержании текста; качество работы фильтра решающим образом зависит от того, насколько хорошо создатель фильтра угадал «словарные профили» интересующих его текстов;
- метод перестает работать, когда создатель намеренным образом «зашумляет» его.
Байесовские фильтры позволяют решить часть этих проблем. Во-первых, они позволяют отказаться от произвольных «словарных профилей» (в известном смысле эти профили создаются автоматически). Во-вторых, они построены на хорошо определенной вероятностной модели. Допущения этой модели известны, что позволяет целенаправленно улучшать качество фильтров. В-третьих, байесовские фильтры автоматически могут учитывать и наиболее распространенные способы «зашумления» текста.
Принцип работы байесовского фильтра весьма прост. На основании анализа двух массивов текстов, один их которых является спамом, а второй — обычным текстом, вычисляются относительные частоты, с которыми различные слова встречаются в этих двух массивах. На основании полученных частот вычисляются вероятности того, что данное слово встретится в тексте, принадлежащем массиву «спам». То есть на этом этапе анализа создается таблица, которая говорит, что, если текст является спамом, то, например, вероятность того, что в нем встретится слово «sexy» равна 0,96. После этого в ход идет формула Байеса, смысл которой заключается в том, что она позволяет «обратить» построенную таблицу вероятностей и говорить о вероятности того, что текст представляет собой спам при условии, что в нем встретилось данное слово.
Применение формулы Байеса из теории вероятностей для фильтрации спама было предложено Полом Грэмом (Paul Graham) совсем недавно, в августе 2002 года в статье A Plan for Spam («План борьбы со спамом (EN)»), где он рекомендовал применять ее для персональной фильтрации. К сожалению, непосредственное использование метода Байеса в условиях массовой почтовой службы затруднительно, в основном по причине большого разнообразия словарного состава клиентских ящиков. Формула Байеса полезна только тогда, когда события, вероятность которых входит в расчет, — независимы. Однако такое предположение, когда в качестве событий выступают встречающиеся в тексте слова, является неверным. (Именно по этой причине байесовская классификация часто называется «наивной».) Не смогут здесь помочь и другие методы классификации текстов по словам, традиционно используемые для информационного поиска. Тем не менее возможность каким-либо образом использовать вероятность отнесения письма к среднестатистическому спаму представляется весьма полезной.
Обучаемые системы (Machine Learning Systems). Разработанные подразделением Microsoft Research9 обучаемые системы предназначены для блокирования спама с помощью таких методов, как нейронные сети, байесовские фильтры или другие средства.
Обучаемые системы могут помечать сообщение как «нормальное» или как «спам» даже тогда, если оно им до этого никогда не попадалось. По мнению специалистов подразделения Microsoft Research, эти системы представляют собой одну из лучших технологий блокирования спама в краткосрочной перспективе. |
В обучаемые системы вводится значительное количество реальных данных, — как минимум, тысячи сообщений, но в идеале миллионы, — помеченных как «нормальные» или «спам». В итоге эти системы начинают различать типы сообщений: они запоминают, что такие слова, как «щелкните» или «бесплатно», являются признаками спама, а такие, как «завтра» или «погода», — свойствами нормального письма. Кроме того, они используют и другие характеристики сообщения. Например, письма со ссылками и изображениями с гораздо большей вероятностью являются спамом, чем те, где нет ни того, ни другого.
Обучаемые системы имеют ряд полезных свойств. Так, они могут помечать сообщение как «нормальное» или как «спам» даже тогда, если оно им до этого никогда не попадалось. Как правило, системы вычисляют вероятность того, что письмо является нормальным или спамом, на основании чего можно предпринять соответствующие действия. Письма, которые бесспорно являются спамом, можно удалить; письма, которые похожи на спам, можно поместить в специальную папку, а письма, которые лишь потенциально могут являться спамом, можно отметить как подозрительные. Некоторые обучаемые фильтры, например, фильтр, поставляемый вместе с MSN 8 и выше, а также система Apple, могут быть обучены пользователем и таким образом персонально настроены.
Использование обучаемых систем, однако, связано с рядом проблем. Не всегда бывает легко получить достаточное количество данных для их обучения (хотя недавно Microsoft преодолела эти трудности благодаря участию 100 тыс. добровольцев со службы Hotmail). Кроме того, спамеры не без успеха могут обманывать такие системы, делая свои сообщения очень похожими на нормальные письма. Они также могут использовать очень короткие сообщения с внедренными изображениями, которые с трудом поддаются исследованию. Тем не менее, по мнению специалистов подразделения Microsoft Research, все эти проблемы можно легко решить, проведя сложный анализ сообщений, а обучаемые системы представляют собой одну из лучших технологий блокирования спама в краткосрочной перспективе.
Системы с поиском совпадений с известным спамом (Matching Systems). Системы с поиском совпадений пытаются найти сообщения, которые идентичны известному спаму. Так, некоторые системы на основании жалоб пользователей составляют список всех известных писем спамеров. В дальнейшем среди всех новых сообщений они ищут такие, которые совпадают с известным спамом, и также помечают их как «спам». Спамеры быстро освоились с этими методами точного сравнения и начали вносить в свои сообщения элемент случайности. Например, теперь многие спамерские письма в конце строки темы содержат случайные последовательности символов. Причем для каждого письма имеется своя случайная последовательность, что обманывает простые системы с поиском точных совпадений.
Возможная альтернатива системам с поиском точных совпадений — это системы на основе правил. В одной из крупных антиспамерских компаний, Brightmail (EN), работает целая команда специалистов, которые разбирают всю входящую корреспонденцию и вручную пишут правила, вычленяющие общие свойства этих сообщений. Это непростая задача — если правило слишком общее, оно приведет к ложным срабатываниям и удалению нормальных сообщений. Если же правило излишне конкретное, то вносимые спамерами элементы случайности позволят обойти его. Кроме того, такие системы всегда немного запаздывают. Для распространения своих баз правил компании Brightmail требуется несколько минут, поэтому если спамеры умеют менять свои сообщения быстрее, чем специалистам Brightmail удается написать, проверить и разослать новые правила, то они могут легко преодолеть эти системы.
Специалисты подразделения Microsoft Research полагают, что у систем с поиском совпадений мало перспектив. Существует бесконечное число возможностей для видоизменения сообщений случайным образом. Кроме того, количество уникальных правил и хэш-значений, необходимое для охвата всех этих вариаций, может настолько возрасти, что существенно замедлит работу серверов электронной почты. |
Еще один метод поиска совпадений — так называемое нечеткое хеширование10. Системы с поиском совпадений пытаются найти в сообщениях общие свойства и на основе этих общих свойств рассчитать некоторое большое число, так называемый хеш. Любое сообщение, у которого это большое число будет таким же, как вычисленный хеш, предположительно является спамом. Для обмана методов внесения случайности такие системы пользуются разными приемами — например, обнаруживают случайные символы в конце строки темы и не задействуют их при расчете нечеткого хеша; не учитывают пунктуацию и т.п. Чем более нечеткой является система, тем лучше она ловит спам, но при этом возрастает вероятность того, что она случайно задержит нормальное письмо.
У систем с поиском совпадений есть два основных способа для получения примеров спама: жалобы пользователей и «ловушки». Пользователи могут пожаловаться на спам, либо написав письмо и отправив его по соответствующему адресу, либо просто нажав на кнопку «Сообщить о спаме», если таковая имеется. «Ловушки» (honeypot), или так называемые датчики (sentinel), — это специальные почтовые ящики, которые предназначены только для приема спама и в которые никогда не должна приходить нормальная почта. Примером таких ящиков являются вновь созданные адреса. Любая почта, приходящая в эти ящики, неизбежно является спамом.
Специалисты подразделения Microsoft Research полагают, что у систем с поиском совпадений мало перспектив. Существует бесконечное число возможностей для видоизменения сообщений случайным образом. Один из используемых методов, носящий название «безумные истории»11 или «китайское меню», позволяет каждый раз менять практически любую часть сообщения. Предложения выбираются из случайных списков, и даже слова в этих предложениях могут варьироваться случайным образом (например, «бесплатный», «дармовой», «халявный»). Такие методы обманывают как системы на основе правил, так и системы нечеткого хеширования. Есть множество примеров того, как спамерам удавалось успешно использовать этот метод. Кроме того, количество уникальных правил и хеш-значений, необходимое для охвата всех этих вариаций, может настолько возрасти, что существенно замедлит работу серверов электронной почты. И наконец, у систем с поиском совпадений существует та же проблема, что и у систем на основе правил — слишком медленное обновление и распространение баз правил.
Иногда считается, что у систем с поиском совпадений крайне низок уровень ложных срабатываний, поскольку они лишь находят совпадения с известным спамом. Однако это очень трудно проверить, так как оценки обычно основываются на жалобах пользователей, а пользователи редко жалуются по поводу писем, которые они так и не получили, — как правило, у них просто нет возможности узнать об этом! Проведя ряд экспериментов, специалисты Microsoft выяснили, что системы с поиском совпадений имеют такую долю ложных срабатываний, которая сопоставима с показателями для разработанных в Microsoft обучаемых систем или даже еще хуже.
Детекторы массовых рассылок. Этот метод может применяться там, где есть значительные объемы почты, то есть у провайдеров и на публичных почтах. Если какое-либо письмо направлено сразу в сотни тысяч адресов и при этом адрес отправителя не находится в списке основных серверов подписных рассылок (типа Subscribe.ru), можно предположить, что это с большой вероятностью спам.
Для выявления спама подобным образом необходимо выполнение двух условий: а) значительный объем почты, б) способ определения «одинаковости» писем (с помощью различного рода сигнатур).
Однако данный метод не может дать твердое заключение, является ли конкретное письмо спамом или нет, а только констатирует факт массовости рассылки.
Для эффективной борьбы со спамом требуются законы, регулирующие правомерность распространения информации по электронной почте и предусматривающие ответственность за незапрошенные рассылки. |
Голосование пользователей. Та же идея с сигнатурами письма может быть использована и другим способом: центральный сервер собирает от пользователей либо образцы спама, либо уже созданные пользователями сигнатуры спамерских писем (для чего им бесплатно раздаются средства генерации сигнатур).
Сигнатуры накапливаются на сервере, для них подсчитывается количество обращений с данной сигнатурой. При превышении некоторого порога «популярности» соответствующее письмо признается спамом и добавляется в базу «плохих» сигнатур. Далее с некоторой периодичностью на компьютеры пользователей отправляется обновление базы фильтра, содержащее сигнатуры спамерских писем.
Данный метод голосования пользователей имеет то преимущество, что пополнение базы фильтрации перекладывается на плечи антиспамерского сообщества. Более того, интернет-сообщество обеспечивает и обратную связь — не только сообщая о спамерских рассылках, но и создавая ложные тревоги.
Законодательство и правоприменение
Для эффективной борьбы со спамом, безусловно, требуется правовая база — иными словами, нужны законы, регулирующие правомерность распространения информации по электронной почте и предусматривающие ответственность за незапрошенные рассылки.
Отсутствие такого законодательства ведет к ряду негативных явлений, в том числе:
- Во-первых, пользователь электронной почты остается беззащитным перед потоком электронного мусора в его почтовом ящике. Он тратит лишнее время на загрузку писем из Интернета, на удаление спама, на поиск действительно нужной корреспонденции. Очень часто спам, рассылаемый без учета возраста получателя, включает в себя материалы для взрослых и прочий сомнительный с точки зрения закона контент. И даже если само содержание спама не противозаконно, все равно неизбежность получения его вызывает раздражение пользователя.
- Во-вторых, компании, выступающие против спама, формально являются нарушителями прав спамеров, так как препятствуют фактически незапрещенному законом бизнесу.
До тех пор пока распространение печатных листовок и спама не станет наказуемым, искушение воспользоваться незапрошенной рассылкой сообщений будет для мелкого и среднего бизнеса слишком сильным. Необходимо законодательно зафиксировать, что:
Однако борьба со спамом не должна лишать предпринимателей возможности предлагать свои услуги и выталкивать их с рынка. Она не только не должна наносить ущерб развитию бизнеса, а, наоборот, обязана подталкивать его к эволюции в сторону более цивилизованной практики привлечения клиентов. |
- спам — незаконен;
- фильтрация почты, как платная услуга, является законной;
- принуждение провайдеров к фильтрации «по умолчанию» является незаконным;
- рассылки с соблюдением установленных правил являются законными.
Однако борьба со спамом не должна лишать предпринимателей возможности предлагать свои услуги и выталкивать их с рынка. Она не только не должна наносить ущерб развитию бизнеса, а, наоборот, обязана подталкивать его к эволюции в сторону более цивилизованной практики привлечения клиентов.
Отказ от рассылки незапрошенных рекламных сообщений приведет не только к сокращению числа листовок и объема спама, но и к усилению влияния как традиционных «коллективных» форм рекламы в общественных местах (доски объявлений), так и новых рекламных площадок в Интернете. Вырастет влияние маркетинговых компаний, и продавцам придется искать новые способы завоевания клиента, не раздражая его.
Закон против спама в США
В декабре 2003 года президент США Дж.Буш-младший подписал закон против спама, который налагает ограничения на рассылку непрошеной электронной почты. Палата представителей США подавляющим большинством голосов утвердила этот закон, что положило конец длящимся уже шесть лет попыткам создать федеральное законодательство, сдерживающее рассылку непрошеных коммерческих сообщений.
Эта мера, грозящая штрафами и тюремным заключением, призвана обуздать массовую рассылку рекламы. За нее проголосовали 392 конгрессмена против 5. «Американцы получают право заявить: „Вычеркните меня из вашего списка, мне это не нужно“», — говорит член республиканской партии Хизер Уилсон. По словам другого законодателя, республиканца Фреда Аптона, законопроект «защищает наших детей от невольного созерцания всего того мусора, который может вывалиться из семейного почтового ящика».
Закон носит официальное название Controlling the Assault of Non-Solicited Pornography and Marketing Act (CAN-SPAM). Министерство юстиции США и Министерство торговли США назвали CAN-SPAM «комплексом технологических, административных, гражданских и уголовных мер», который предоставит потребителям возможность сократить объем нежелательной почты.
CAN-SPAM представляет собой компромиссное решение. Он разрешает Федеральной торговой комиссии США (но не требует) создать реестр «неспамеров», имеет приоритет над многими законами штатов и предоставляет возможность отписки (когда пользователь получает непрошеное письмо и имеет возможность отписаться от дальнейшей рассылки) вместо более строгого требования подписки (когда для рассылки необходимо предварительное согласие пользователя).
CAN-SPAM легализует отдельные виды незапрошенных сообщений. Разрешено отправлять любое количество «коммерческих сообщений электронной почты», если они содержат очевидную рекламу и правильный почтовый адрес США или номер почтового ящика, а также строку unsubscribe (отписаться) в нижней части сообщения.
Положениями законопроекта запрещается:
Корпорация Microsoft работает вместе с представителями государства над применением существующих законов, а также наращивает свои усилия по сотрудничеству с другими интернет-провайдерами в борьбе со спамом. |
- Фальсификация заголовков электронной почты или использование почтового сервера или открытых почтовых пересылок «для обмана или введения в заблуждение получателей» в отношении источника коммерческого электронного сообщения. Запрещается также регистрация «пяти или более» учетных записей электронной почты или «двух или более имен домена» с ложной информацией, а также их использование для отправки коммерческих электронных сообщений. За первое нарушение предусмотрены наказания вплоть до трехлетнего срока тюремного заключения.
- Рассылка коммерческих электронных сообщений с вводящим в заблуждение текстом в строке Subject («Тема»), «который может быть неправильно истолкован получателем».
- Рассылка коммерческих электронных сообщений без «действительного обратного адреса» или ссылки на веб-страницу, на которой можно отписаться от рассылки.
- Сбор адресов электронной почты путем просмотра веб-узлов и автоматический подбор адресов методом подстановки.
- Применение автоматических методов, например скриптов, для использования учетных записей в таких бесплатных службах электронной почты, как Hotmail или Yahoo.
- Рассылка коммерческих электронных сообщений с «сексуально ориентированным содержанием», если в них не содержится ссылка на рекомендацию Федеральной торговой комиссии США. Это требование не распространяется на списки подписки. Нарушителям грозит тюремное заключение сроком до пяти лет и штраф в 150 тыс. долл.
Председатель правления и главный архитектор программного обеспечения корпорации Microsoft Билл Гейтс выразил надежду, что закон «поможет потребителям восстановить контроль над своими почтовыми ящиками и поддержит поставщиков услуг электронной почты в их борьбе за обуздание спама». «Microsoft всецело поддерживает строгие законодательные меры, а также запрет на фальсификацию источника электронного сообщения и нелегальные методы сбора адресов — все это поможет провайдерам интернет-услуг найти управу на спамеров», — подчеркнул он.
Microsoft также обращается ко всем пользователям с призывом писать жалобы на спамеров в соответствующие органы власти. Так, письма направляемые в Федеральную торговую комиссию США по адресу uce@ftc.gov будут служить основанием для подачи исков против массовых отправителей мошеннических или вводящих в заблуждение электронных писем.
Рост законотворческой деятельности против спама как в США, так и в мировом масштабе в последнее время внушает оптимизм, в связи с чем Microsoft ожидает огромных успехов в ближайшем будущем.
Что могут сделать сами пользователи?
По мнению Федеральной торговой комиссии США, у пользователей есть пять способов защитить свои адреса электронной почты от программ-сборщиков:
«Замаскировать» свой электронный адрес.
В почтовый адрес пользователя можно вставить слово или выражение, которое обманет компьютерную программу-сборщик, но только не человека. Например, адрес johndoe@myisp.com (вася@провайдер.com) можно замаскировать как johndoe@spamaway.myisp.com (вася@спаму-нет.провайдер.com).
Использовать отдельное экранное имя в чат-форумах.
Для онлайновых чат-форумов можно создавать экранное имя, не связанное с адресом электронной почты.
Завести отключаемые адреса.
Можно использовать службу отключаемых электронных адресов, которая создает отдельные почтовые адреса, письма с которых пересылаются в постоянный почтовый ящик. Если на один из отключаемых адресов начинает приходить спам, можно ликвидировать этот адрес, не затрагивая постоянный почтовый ящик.
Использовать два электронных адреса.
При работе в компании, которая по роду своей деятельности получает письма от широкого круга лиц, сотрудникам следует организовать для этих целей отдельные почтовые ящики или отключаемые электронные адреса, вместо того чтобы публиковать собственный адрес.
Использовать уникальный почтовый адрес, содержащий буквы и цифры.
Выбор почтового адреса может повлиять на количество получаемого спама, поскольку некоторые спамеры используют атаки со словарем. Они направляют письма по множеству адресов в виде возможных сочетаний имен и фамилий в домене крупного интернет-провайдера или почтовой службы, надеясь найти действующий адрес.
Отказ от рассылки незапрошенных рекламных сообщений приведет не только к сокращению числа листовок и объема спама, но и к усилению влияния как традиционных «коллективных» форм рекламы в общественных местах (доски объявлений), так и новых рекламных площадок в Интернете. Вырастет влияние маркетинговых компаний, и продавцам придется искать новые способы завоевания клиента, не раздражая его. |
Оправдаются ли усилия, затраченные на борьбу со спамом?
Поскольку оценки ущерба, наносимого спамом бизнесу и частным пользователям, сильно разнятся, некоторые компании по-прежнему считают это не слишком важной проблемой. Так стоит ли вообще вкладывать средства на борьбу со спамом, создавая различные ассоциации, покупая сложное и недешевое программное обеспечение, размещая дорогостоящую социальную рекламу и т.д.?
Однако существует мнение, что если не начать бороться со спамом, то ситуация может просто выйти из-под контроля. В этом смысле можно сравнить спамеров с обычными преступниками. Государство и общество испокон веков борются с ворами и мошенниками, сажая их в тюрьму, придумывая всевозможные способы защиты и проч. Тем не менее количество воров год от года не уменьшается или уменьшается незначительно. С другой стороны, невозможно даже просто представить, что было бы, если бы борьба с ворами не велась вообще. В этом случае можно прогнозировать, что ситуация в скором времени вышла бы из-под контроля и люди просто боялись бы выходить на улицу. То же самое может случиться и со спамом. Без осознания значимости данной проблемы, как таковой, и объединения усилий представителей ИТ-индустрии и государства ее преодоление будет практически невозможным.
Эффективное противодействие распространению спама предполагает принятие комплексных мер на различных уровнях. Решение данной задачи невозможно без участия всех заинтересованных сторон: разработчиков программного и аппаратного обеспечения, системных интеграторов, провайдеров и органов государственной власти. При этом, однако, следует учитывать тот факт, что никакие меры не смогут гарантировать достижения полной защиты от получения незапрошенных электронных сообщений. В настоящее время речь может идти только о минимизации объемов спама, а не о полном его исключении.
1 Правоприменение — обеспечение выполнения существующих законов.
2 HIP (Human Interactive Proof) — интерактивная проверка на «человеческую природу». Используется в ходе регистрации новых учетных записей Hotmail и Passport.
3 CAPTCHA (Completely Automatic Public Turing Test to tell Computers and Humans Apart) — полностью автоматизированный общедоступный тест Тьюринга для различения компьютеров и людей.
4 Тест Тьюринга в его исходном понимании — это процедура для оценки того, обладает ли та или иная система интеллектом, равносильным человеческому. Тест проводится следующим образом. Исследователь общается по компьютерной сети с собеседником, не зная, человек это или машинный интеллект. Если после общения с машиной он приходит к выводу, что это человек, значит, машина прошла тест Тьюринга на интеллектуальность.
5 Пример такой системы можно найти в описании проекта Penny Black (research.microsoft.com/research/sv/PennyBlack (EN)).
6 Различают два вида ложных срабатываний: false positive — неверное зачисление письма в спам, то есть собственно ложное срабатывание, и false negative — неверное причисление письма к «неспаму», то есть «ложное несрабатывание».
7 DNS (Domain Name System) — доменная система имен. Служба Интернета, представляющая собой распределенную базу данных для иерархической системы имен сетей и компьютеров, подключенных к Сети, а также способ преобразования строчных адресов серверов Интернета в числовые IP-адреса.
8 Служебный заголовок — заголовок, который в обычных условиях не виден пользователю. В таком заголовке отмечается путь прохождения письма по почтовым серверам и другая информация.
9 Microsoft Research (MSR) — подразделение корпорации Microsoft, ведущее исследования в области компьютерных технологий.
10 Хеширование (термин, используемый в криптографии) — преобразование массива данных произвольного размера в блок данных фиксированного размера, служащий (в некоторых случаях) заменителем исходного массива. Хеширование выполняется с помощью хеш-функций.
11 «Безумные истории» (mad libs) — детское развлечение, при котором играющему предлагается наугад назвать ряд слов определенного рода (имена, части тела, прилагательные, глаголы и т.п.), а затем эти слова подставляются (компьютером или иным образом) в тот или иной шаблон, и получается смешной рассказ.
0 коментарии:
Оставить коментарий