メールを一旦受け取り、メールの内容から迷惑メールか判断する仕組みがコンテンツフィルタです。コンテンツフィルタは、以下のように分類できます。
・経験的手法
・ベイジアン統計
・URLのブラックリスト
・シグニチャ
以下、それぞれを説明していきます。
経験的手法は、コンテンツフィルタの初期手法です。ユーザが経験に基づいて迷惑メールの特徴をルールにし、それに合致するかを判定します。たとえば、ユーザは「Subject: に未承諾広告と書いあるのは迷惑メール」といったルールを定義します。
この手法の長所は、実装が容易なことです。短所は、誤判定が多いこと、そしてルールを改良していくのが面倒かつ困難なことです。
ユーザの主観に頼らずに、単語の統計をとることで迷惑メールを判断する方法がベイジアン統計による手法です。ユーザが受け取ったメールを迷惑メールだと判断した場合、統計ソフトウェアに学習させていきます。そうしておけば、次から類似のメールを受け取った場合、統計ソフトウェアが迷惑メールだと判断してくれます。
この手法が広く普及したために、迷惑メール配送業者は、統計ソフトウェアがうまく取り扱えないような工夫を施し始めました。単純な例としては、「アダルト」の代わりに「アタルト」を使うことが挙げられます。人間には「アダルト」のような錯覚を起こさせ注意を引くことに成功し、それでいて統計ソフトウェアには引っかからないようにします。また、未承諾の広告の一部に新聞記事等を挿入し、統計ソフトウェアが取り扱うのが困難になるようにしている例もあります。
ベイジアン統計の欠点は、上記から推測されるように誤判定が多いこと、そして処理にコストがかかることです。
未承諾広告には、アクセスさせたいページのURLが入っている場合がほとんどです。そこで、URLのブラックリストを作成し、それに合致するURLを含むメールを迷惑メールと判断します。
迷惑メールは、コピーが大量にばらまかれる傾向にあります。たとえば、あるメールをユーザが迷惑メールだと判断し、共有データベースに登録したとします。それと同一のメールを受け取った別のユーザが、共有データベースを参照すれば、迷惑メールと判定されていることが分かります。このアイディアを効率よく実現したのがシグニチャ方式です。
迷惑メールの本文は長くなることがあり、全体を登録するデータベースを構築するのは大変です。そこで、メールから計算したシグニチャ(セキュアハッシュ値)を代わりに用います。シグニチャとは、あるデータを一意に特徴付ける数バイトのデータです。シグニチャによって、データベースを小さくし、検索を高速にすることができるわけです。
この方法の長所は、誤判定がほとんどないことです。今後、急速に広まるかもしれません。ただ、普及すれば、迷惑メール配送業者は、それぞれの迷惑メールの本文を若干変更し、同一のメールだと判定できないように対応してくるかもしれません。
以上、各手法を説明しました。コンテンツフィルタは即効性がありますが対処療法であり、迷惑メールを送信することを妨げたり、迷惑メールの受信を拒否したりすることには貢献できません。また、サーバの負荷が大きくなることも問題のひとつです。
法律面の話になりますが、ISP/ASPが標準でコンテンツフィルタを組み込むことは、「検閲の禁止」に違反すると判断されています。そのため、ISP/ASPがこの種のサービスを提供する場合は、最初は無効にしておき、ユーザ自身がユーザの判断で有効にしてもらう必要があります。なお、企業が社員のために導入する場合は、企業はエンドユーザと見なされるので、問題ありません。
《PREV》 |