Два спама

Опубликовано в журнале "Компьютерра" №37 от 01.10.2001 г.

С политическим контролем над содержанием в Сети - глухо как технологически (ну не поддерживает Интернет цензуру), так и - извините за каламбур - по содержанию: мало ли кто чего не любит.

Кому не нравится поп-фундаменталист, а кому - попова дочка-атеистка. Папе Мюллеру-третьему из ФБР - криптографические программы, а его коллегам из медиа-картелей - криптаналитические. В мире более двухсот национальных юрисдикций, не считая местных законодательств, и я сильно подозреваю, что нельзя переслать ни одной пары байтов, не нарушив ни одного закона какого-нибудь Берега Берцовой Кости.

В США запрещен софт от Elkomsoft, а в Сингапуре - песня Битлз Lucy in the Sky with Diamonds, и мне очень интересно,какова была бы реакция властей США на такую гипотетическую ситуацию: американец через Сеть продал сингапурцу компакт-диск с этой песней (или слил файл), а потом имел неосторожность приехать в эту страну, где и был арестован. Признали ли бы Штаты подобную ситуацию симметричной ситуации со Скляровым?

Даже пресловутая «детская порнография» - скорее жупел, чем четкое определение (что такое порно? и кто такие дети? - я уже имел неосторожность задать эти вопросы вслух, и доброжелатели из числа читателей прислали массу материалов для моего просвещения, но вопросы остались).

Гораздо сильнее выглядят позиции сторонников регулирования в интересах технической работоспособности сетей, входящих в Интернет. Хотя бы потому, что, по крайней мере, стандарты продавливать нужно.

И еще потому, что есть вещи, которые не нравятся никому. DоS-атаки, например, или спам. Из чего не следует, что проблема того же спама - это проблема регулирования.

Постараюсь показать это на примере не почты, а другого, столь же популярного в «консъюмерской» среде сервиса сетей Интернет: WWW.

Двойной стандарт

Типичная ситуация: обратившись к странице сервера «Компьютерры» со статьей «Аннотация геномов…» Михаила Гельфанда (#413), я попутно получил баннер с рекламой AMD Athlon объемом 14К, которую (при всем уважении к любимому мной производителю процессоров и восхищении их новым продуктом) я не запрашивал и не желал получать. Полагаю, самый либеральный оператор почтовой службы согласится, что незапрошенное письмо с четырнадцатикилобайтной рекламой (неважно, текстом или картинкой) - очевидный спам.

«Нет! - кричат мне. - Спам - это почта, а баннеры на странице сервера - это реклама, ничем не отличающаяся от рекламы в журнале». Сия аргументация может быть более тонка и остроумна, однако сути она не меняет: как и в случае с почтой, а) «контент» поставляется принудительно; б) его ценность для получателя равна нулю или отрицательна; в) его поставка сопряжена с потреблением ресурсов получателя. Последнее и есть отличие спама от «просто рекламы».

Спам-почта практически повсеместно признается явлением вредным. Она запрещена правилами и уставами подавляющего большинства входящих в Интернет сетей, а законы некоторых стран предусматривают за ее рассылку административную или даже уголовную ответственность.

Web-спам же рассматривается как разновидность рекламы: инструмента, возможно, неприятного, но позволяющего реализовать достаточно эффективную модель финансирования порождения (или, по крайней мере, оформления в специфичном для WWW виде) некоего полезного контента или предоставления полезной услуги. Полезный контент повышает не только популярность конкретного ресурса, но и - в конечном счете - Сети в целом, что, в свою очередь, повышает спрос на сетевые сервисы - от подключения до хостинга и колокации. Реклама - двигатель Сети!

Однако почтовый спам также может порождать трафик к полезным ресурсам (и порождает, иначе нас бы не спамили ссылками на Web-ресурсы). «Смертный грех» «почтовых» спаммеров - не в том, что они спаммеры, а в том, что они не делятся с отраслью.

От эмоций к экономике

Можно спорить о том, какой вид спама - почтовый или Web - потребляет больше психофизических ресурсов пользователя (в конце концов, это самый ценный ресурс). С одной стороны, нельзя не отметить, что на большинстве сайтов баннеры и пр. позиционируются честно: они размещаются на ожидаемом месте вверху или внизу по центру страницы (фрейма, столбца) или выделяютя явно как реклама, так что сосредоточенный на содержании пользователь быстро приучается их игнорировать. С другой стороны, распознание (и удаление) спам-почты у любого активного пользователя e-mail тоже становится чуть ли не спинномозговым рефлексом.

Скорее стоит заметить, что эти ресурсы потребляются по-разному: почтовый спам, при всем автоматизме его детектирования, успевает вызвать явное раздражение и протест, а Web-спам имеет хорошие шансы быть «проглоченным» и восприняться на сублиминальном уровне (известно, что увиденная реклама влияет и на потребителей, которые не руководствуются ею сознательно, если только не реализуют тактику рационального потребления). Какой из этих эффектов хуже, выбирайте сами.

Что касается материальных ресурсов (обычно самым узким и дорогим местом оказывается пропускная способность линии, связывающей компьютер или локальную сеть с провайдером), то урон от Web-спама гораздо выше, чем от почтового. По крайней мере, на часто используемых мною ресурсах 1 он составляет 30-70% совокупного передаваемого объема. Например, типичная страница сервера www.computerra.ru содержит на 7К полезного текста (12К текста совокупного, включая элементы оформления и прочую тривию; повторяющиеся графические элементы оформления кэшируются локально, и их объемом можно пренебречь) более 20К баннерного спама. Даже при Unicode-кодировании текста (умножаем объем на два) и его передаче без сжатия, половина засасываемого контента - мусор еще килобайт на 10! (Чуть меньше, если страница содержит содержательную иллюстрацию.)

Представьте на секунду такое же соотношение в своей входящей почте 2!

Если Web-трафик составляет в совокупном трафике пользователя процентов семьдесят 3, то мусор составит более трети общего объема: цена вопроса для отдельного пользователя может достигать сотен долларов в год. Почувствуйте разницу с рекламой в бумажной прессе: ее доставку оплачивает не читатель, а рекламодатель. При этом деньги, заплаченные за прием мусора, не достигают ни рекламодателя, ни оператора рекламоносителя (который может быть поставщиком интересующего вас контента) даже косвенно - модель в этой своей части субоптимальна. Это приговор.

Противоспаммерная тактика…

Разумеется, ни один разумный пользователь таких денег на ветер не выбрасывает. Существует масса инструментов, позволяющих эффективно отсечь Web-спам на локальном или локально-сетевом уровне - от junkbuster, прикручивающегося к самому популярному кэш-серверу squid на верхнем (профессиональном) конце спектра, до @Guard и массы других, ориентированных на отдельного пользователя и интегрирующихся с браузерами Windows-утилит, которые так любит описывать в своей «Голубятне» Сергей Голубицкий, - на нижнем (потребительском). В ближайшем будущем можно ожидать поглощения этой функциональности непосредственно браузерами 4.

Я не видел такого рода систем, использующих элементы искусственного интеллекта (правда, специально не интересовался), а те, что видел, достаточно «тупы» и, соответственно, достаточно надежны. Введение образца (паттерна) «http://www.computerra.ru/images/banners/*», например, отсечет терровскую рекламу, пока главный редактор сайта не придумает что-то новое 5.

Образец «*/images/banners/*» отсечет, конечно, больше, а паттерн «*/banners/*» - еще больше, но здесь возникает риск перекрыть что-то потенциально полезное. Но, в общем, практика показывает, что при хорошем подборе:

  • 10 паттернов отсекут около половины Web-спама;
  • 50 паттернов - около 90%;
  • 250 паттернов - около 99%.

Причем - с пренебрежимо низким уровнем ложных срабатываний (это касается не только русскоязычных российских ресурсов - так называемого Рунета, или Рувеба. В гораздо более обширном англоязычном домене проценты примерно те же).

250 единиц анализировать вручную уже сложно, но список такого размера можно позаимствовать у оператора прокси-сервера какой-нибудь корпоративной, академической или общественной сети (при серверах поставщиков средств противобаннерной обороны обычно есть форумы или иные средства обмена списками), поддерживающего его по долгу службы. Поскольку операторы - тоже люди, разумно использовать пересечение нескольких независимо составленных списков.

…И техническая стратегия

Она лежит, очевидно, в направлении автоматизированных систем коллаборативной оценки и фильтрации; более того, если рациональные пользователи составят значительную часть аудитории, операторы рекламоносителей, разумеется, задумаются над контрстратегией, и поскольку они более мотивированы, «обыгрывать» их можно будет только «давя массой» (количеством членов коллаборирующего сообщества).

Массово реализованная таким образом стратегия защиты от спама ограничит эффективность модели косвенного финансирования (рекламодателем) разработки или предоставления контента в WWW и сделает относительно более привлекательными другие модели (оплата доступа и поставки, добровольные прямые пожертвования и пр.), что может повлечь за собой спрос на соответствующий инструментарий (системы мини- и микроплатежей). Произойдет это или нет - большой вопрос, но принципиальная возможность такого развития события представляется очевидной.

В своей основе проблема спама - техническая и экономическая в большей степени, чем проблема регулирования. Проверку приведенных аргументов относительно массовой рассылки непрошенной электронной почты оставляю читателю.

[i41444]


1 (обратно к тексту) - Фантастическое исключение составляет яндексовский www.ya.ru.
2 (обратно к тексту) - Для меня это была бы пара сотен спам-писем в день общим объемом за мегабайт.
3 (обратно к тексту) - Как у меня: 70% http, 20% ftp, 9% smtp/pop3, около процента на все остальное.
4 (обратно к тексту) - Mozilla уже начал движение в эту сторону.
5 (обратно к тексту) - Предшественник Романа Косячкова, Андрей Шипилов, был крайне изобретателен на этот счет.

This entry was posted in Компьютерра and tagged , . Bookmark the permalink.

Leave a Reply