中国インターネット事情

ITを中心に中国の事 もろもろ

画像の文字を入力させるサイト 最近は人間でも対応不可能な理由

最近はサイトで何かをするたびに、画像に書いてある読みにくい文字列を入力しろと言われます。
captcha」というこの画像認証は、例えば、会員登録をする場合とか投稿をする場合とか、ネットを使っていればかなりの頻度で見かけるのではないでしょうか。

これは「人間」であることを確認する為のもので、自動プログラム「bot」が勝手に登録や投稿をするのを防止するためのものです。
bot」が画像を読むのはテキストよりはるかに面倒なので「bot」除けになるわけです。

しかし、最近は「bot」の性能も向上し「OCR」技術を利用して画像を処理するタイプも出て来たので、「captcha」側も、画像の文字を変形させたり背景にノイズを入れたりして、これらの新型「bot」に対応しているわけです。

それにしても、最近の「captcha」は「bot」だけではなく人間にも判別が"ムリ"という文字列が増えているような。
筆者も認証まで2,3回間違えることが普通です。バリアフリー用に音声読み上げもあるようだが、英語なので母国語が英語じゃなければ使いにくい。

実は、最近の「captcha」の文字に判別不能なものが多いのには「bot」対策の他にも、全く別の理由があるのだという。
Google」が行っている書籍電子化プロジェクト。全ての書籍を電子化するというこの壮大なプロジェクトはいろいろと議論を巻き起こしました。
http://www.nikkeibook.com/copyright_g.html

bot」の性能向上に「OCR」技術が使われている事は先に述べましたが、この書籍電子化プロジェクトで利用する技術も「OCR」です。
OCR」技術でも認識できない文字は「captcha」に向いているし、更にOCRで読めない部分を、サイトユーザーの人力(無料)を使って電子化できる! まさに一石二鳥だ! というところからこれらの文字列が登場するようになった見たいです。
しかし、「OCR」が読めない文字列を人間が読めるとは限らないわけで。
このタイプは、サイト側も答えを知らないので、適当に入力すれば良いのかもしれませんが、そんな事は分かりませんから、ついつい何だろう? と考えてしまいますよね。
「無料人間OCR」になっている瞬間です。尚、このタイプは2つ入力欄がある場合が多いようです。

それにしても、最近の「captcha」は「bot」だけでなく、人間の認識力すら凌駕してしまっている。
現時点でも人間には無理になりつつあるのだから、今後サイトを読むためには「OCR」技術を更に向上させるしかない。