|
 |
Новости Агавы
Компания Агава объявляет о новой возможности для клиентов JobList.ru. Теперь, покупая услуги «Горячие вакансии» и «3+Лого», клиент получает размещение своей информации не только на первой странице JobList.ru, но и на первой странице сайта 100rabot.ru.
Недавно компания Агава возобновила предоставление услуги Colocation! Для тех, у кого есть собственный сервер, но нет подходящих условий для его содержания – размещение машины на наших площадках может стать оптимальным решением как с финансовой, так и с технической точки зрения.
Новый формат рекламы – Интерстишиалз «с картинками»
Рекламное агентство Агава предложило вниманию рекламодателей новый формат рекламы – Интерстишиалз «с картинками». Оба формата - Интерстишиалз и Интерстишиалз «с картинками» - показываются на крупнейшем файлообменном сервере Рунета iFolder.ru.
|
 |
|
|
|
Умный алгоритм и база данных
Если Вы уже использовали спам-фильтры, механизм идентификации которых основан на Байесовском алгоритме, то Вы можете заинтересоваться этим разделом. Большинство внедрений Байесовской концепции имеет достаточно проблем, решение которых предусмотрено в Spamprotexx.
-
Чувствительность к ошибкам в обучении. Если Вы ошибочно представили сообщение для обучения не в ту категорию (не-спам в спам и наоборот), то большинство фильтров внесёт изменения в фильтрационную базу данных, что критично отразится на качестве классификации: сообщения, на примере которых Вы уже обучали фильтр, он будет не в состоянии классифицировать правильно.
Spamprotexx использует некоторые ноу-хау, которые следят за состоянием базы данных и исключают вышеописанные эффекты. Кроме того, если Вы, исправляя ошибку, просто пошлёте то же самое сообщение для обучения в нужный класс, то ошибочное предыдущее представление будет удалено.
-
Излишнее обучение. Спам часто приходит типовыми пачками — таким образом, иногда Вы предоставляете для обучения спам-примеры одного класса. Большинство фильтров, обучаясь на этих примерах, в результате будет получать всё большие коэффициенты, что приведёт к так называемому излишнему обучению базы данных.
Spamprotexx решает эту проблему, классифицируя каждое сообщение перед тем как обучаться на его примере. Если ему удаётся его классифицировать, то он не допустит это сообщение для обучения. Такой подход страхует базу данных от излишнего обучения на примерах одного и того же типа.
-
HTML-тэги. Традиционные Байесовские фильтры имеют тенденцию ошибочно реагировать на HTML-сообщения. Это происходит потому, что большинство спам-посланий приходит в виде HTML, и, когда такие послания представляются для обучения, то стандартные HTML-тэги начинают восприниматься как спам-слова.
Spamprotexx использует синтаксический анализатор HTML, чтобы исключить влияние тэгов на классификацию. Вместо включения всех тэгов в спам-слова, Spamprotexx обращает внимание на их свойства — шрифты, параграфы, тело, изображения и т.д. К примеру, Spamprotexx способен обнаружить и запомнить, что спам-сообщения часто создаются с использованием шрифтов определённых цветов, размеров и типов.
-
Заголовки сообщений. Письма часто бывают короткими. Содержание может заключаться всего в нескольких словах в теле письма или даже в строке Subject. Некоторые фильтры не могут классифицировать такие сообщения правильно, поскольку для принятия решения им необходимо больше содержания в теле письма.
Spamprotexx использует заголовки сообщений (1-2 килобайта информации) для успешной классификации. В заголовках содержится много информации, помогающей Spamprotexx принять правильное решение. Поэтому даже очень короткое сообщение будет правильно классифицировано Spamprotexx.
-
Служебные части речи. Есть много слов (таких, как предлоги), которые не являются характерными для спама или не-спама. Как результат, происходит снижение качества, потому что фильтры в большинстве своём скорее учатся на спам-примерах, нежели на обычных письмах.
Spamprotexx имеет стоп-лист для таких слов, чтобы не использовать их с целью классификации.
|
|