Как считает Михайлов Алексей Юрьевич, доцент кафедры «Финансовые технологии» Финансового университета, современное развитие цифровых технологий привело к колоссальному увеличению объемов информации, циркулирующей в сети Интернет. Электронная почта, являясь одним из наиболее распространённых каналов коммуникации, играет ключевую роль в бизнесе, образовании, научной и личной переписке. Однако параллельно с ростом числа пользователей и сообщений растёт и количество нежелательной корреспонденции — так называемого спама. Доля спама в мировом почтовом трафике в разные периоды достигала от 45% до 70%, что свидетельствует о масштабности проблемы. Спам не только снижает эффективность коммуникации, но и является каналом распространения фишинговых атак, вредоносного программного обеспечения, а также источником прямых и косвенных экономических убытков.
Первые подходы к фильтрации спама были основаны на простых эвристиках — блокировке писем, по ключевым словам, «чёрным спискам» отправителей или по сигнатурам сообщений. Несмотря на определённую эффективность на ранних стадиях развития электронной почты, такие методы быстро утратили актуальность из-за способности спамеров адаптироваться к фильтрам. Эволюция нежелательных сообщений стала толчком к поиску новых решений, способных противостоять более изощрённым методам обхода защиты.
С середины 2000-х годов ключевым направлением стало использование алгоритмов машинного обучения. Их применение позволило перейти от статических правил к динамическим моделям, которые обучаются на больших массивах данных и способны выявлять закономерности в структуре писем, тексте, метаданных и поведении пользователей. Простейшие модели, такие как наивный байесовский классификатор, открыли новую эру в антиспам-фильтрации, а последующие методы — опорные векторы, решающие деревья, ансамблевые модели и глубокие нейронные сети — значительно повысили точность обнаружения спама.
Изучение антиспам-фильтров с применением машинного обучения занимает значительное место в современной научной литературе, объединяя направления информационной безопасности, обработки естественного языка и анализа больших данных. Спам рассматривается не только как социальная и техническая проблема, но и как объект для развития методов классификации, обладающих высокой точностью и устойчивостью к изменяющимся условиям.
Ранние исследования предложили использовать наивный байесовский классификатор для фильтрации нежелательной почты, что стало одной из первых демонстраций применимости машинного обучения в данной области. В последующие годы появились работы, анализирующие линейные модели и методы на основе опорных векторов (SVM), которые показали более высокую точность по сравнению с байесовскими подходами.
С начала 2000-х годов внимание исследователей сместилось на ансамблевые методы, такие как Random Forest и AdaBoost, позволяющие сочетать несколько слабых классификаторов в более сильный. Эти методы доказали свою эффективность в условиях динамически меняющегося контента спама.
В дальнейшем с развитием глубокого обучения начались исследования применения нейронных сетей — сначала полносвязных, затем рекуррентных (RNN, LSTM) и сверточных (CNN), которые показали высокие результаты в обработке текстовых данных. Более современные работы фокусируются на применении трансформеров и предобученных языковых моделей (BERT, RoBERTa, GPT) к задаче классификации спама.
Одним из значимых аспектов исследований является выбор набора данных для обучения и тестирования моделей. Наиболее часто применяются:
· Enron Email Data, содержащий более 500 тысяч писем сотрудников компании Enron, разделённых на категории «спам» и «не спам»;
· SpamAssassin Public Corpus, включающий наборы писем с ручной разметкой;
· Ling-Spam Dataset, использующий коллекцию лингвистических текстов;
· современные синтетические датасеты, формируемые исследователями для имитации реальных условий.
Исследования показывают, что результаты классификации могут существенно различаться в зависимости от выбранного корпуса, степени балансировки классов и методов предобработки текста (удаление стоп-слов, стемминг, лемматизация, n-граммные представления).
Многочисленные работы посвящены сравнительному анализу различных алгоритмов.
Более новые работы исследовали устойчивость алгоритмов к атакам типа adversarial, показывая, что многие классические фильтры уязвимы к специально модифицированным сообщениям.
Последние работы исследуют применение трансформеров и предобученных языковых моделей. Использование BERT и его модификаций показало значительное улучшение качества классификации благодаря способности модели учитывать контекст на уровне всего предложения. Однако высокая вычислительная сложность остаётся ограничивающим фактором для внедрения таких решений в масштабные почтовые системы.
Современные исследования акцентируют внимание на использовании контекстных эмбеддингов (ELMo, BERT), которые позволяют моделям различать значение слова в зависимости от окружения.
Обзор литературы демонстрирует, что развитие антиспам-фильтров прошло путь от простых эвристических правил к сложным нейросетевым архитектурам, использующим контекстные эмбеддинги и трансформеры. Несмотря на значительный прогресс, остаются нерешёнными проблемы вычислительных затрат, устойчивости к adversarial-атакам и интерпретируемости моделей.