Iniciar uma conversa

O que é a indexação Bayesiano e qual é sua utilidade?

A indexação é um "método" do IceWarp Anti-Spam para obter melhores resultados no reconhecimento de mensagens de spam. Muitas vezes tal processo não tem sido recomendado, pelo fato de ser trabalhoso e o nosso Anti-Spam já trazer ótimos resultados sem que precise realizar indexação.

O mecanismo do Anti-Spam inclui um filtro Bayesiano. Esse é um filtro especial baseado em um método estatístico. Há um Spam Reference Database (Banco de Dados de Referência de Spam) - uma lista de palavras usadas em mensagens com o respectivo número de ocorrências em mensagens de spam e em mensagens autênticas. A indexação atualiza esse Spam Reference Database com novas palavras ou ajustando o número de ocorrências para palavras já existentes.

Exemplo:

viagra 38084 1 231

O primeiro número é relacionado à data em que a palavra foi indexada pela primeira vez. O segundo, é o número de ocorrências em mensagens autênticas (ham) - significa que uma (1) mensagem que continha a palavra "viagra" foi indexada como mensagem autêntica. O terceiro, é o número de ocorrências em mensagens de spam - significa que houve muitas mensagens que continham a palavra "viagra" e estas foram indexadas como mensagens de spam (não são necessariamente 231 mensagens, pois algumas mensagens podem conter essa palavra várias vezes).

Quando uma mensagem é recebida e processada pelo filtro Bayesiano, este avalia todas as palavras que estão na mensagem de acordo com o Spam Reference Database e calcula a probabilidade de a mensagem ser um spam.

Para melhorar o resultado, você pode indexar suas próprias mensagens - todas as palavras nessas mensagens são adicionadas Spam Reference Database e o número (ocorrências autênticas ou de spam) é incrementado para que o filtro Bayesiano tenha dados mais precisos e reais para avaliar uma mensagem na próxima vez.

Há muitos modos de indexação, configurável através da opção Learning Rules (Regras de Aprendizado), onde você define pastas para serem usadas em conjunto com contas IMAP, a fim de ensinar o sistema. Consulte o Help do IceWarp (F1) para maiores detalhes. Basicamente, você deverá mapear pastas "Légitimas" e "Spams" em uma conta IMAP na parte de Anti-Spam/Regras de Aprendizado e mover mensagens para respectivas pastas. É necessário ensinar um mínimo de 100.000 palavras para se ter devida eficiência. Verifique em Anti-Spam/Geral/aba Geral, quantas palavras já foram indexadas.

Importante: Recomendamos todo cuidado com a indexação, pois corre-se o risco de ensinar erroneamente devido a códigos escondidos no HTML da mensagem... Caso isso ocorra, apague o arquivo icewarp/spam/spam.db.usr (dicionário customizado do sistema Bayesiano).

 

Escolher arquivos ou arraste e solte arquivos
Esse artigo foi útil?
Sim
Não
  1. Flávio Zarur Lucarelli

  2. Publicado
  3. Atualizado

Comentários