検索エンジンロボット(Crawler)対策

Posted by muchag | PHP,ガラケー | 2010-06-03 (木) 18:09:16

携帯サイトの構築は面倒だね。。。

今回は検索エンジン対策。

1.クローラー(Crawler)の巡回制限
◆robots.txt

これは別に携帯に限ったことではないのだが
検索エンジンのクローラーに巡回対して
User-Agent: *
Allow: / < - 受諾 Disallow: / <- 拒否[/code] *は全てを表す /はルートディレクトリ のように記入して robots.txt という名前で保存し ルートディレクトリに配置することで クローラーのサイト内巡回に制限をかけられるようだ。 例 [code]User-Agent: Googlebot-Mobile Disallow: /example/ Disallow: /hoge/hoge.html[/code] 参考元 ここは詳しく載っている:robots.txt ロボットテキストファイルの書き方作りかた
参考元:
robots.txtの書き方(保存版)

◆metaタグ

ページ毎に

  1. <meta name="robots" content="noindex, nofollow">

と記述してやっても有効らしい。

参考元:とほほのWWW入門 robots.txt とは?

2.IPアドレス制限

携帯サイトは専用にするためにIPアドレス制限を行っているわけだが
キャリアIPアドレスで制限をすると、クローラーも制限してしまうことになる。

そこで、クローラーを制限しないために。

・クローラーはUserAgentをそれぞれ偽装してくるのでキャリア問題はなし
・IPアドレスはそれぞれのクローラーに合わせて開放してやる必要がある

具体的には、以下の各検索エンジン公式サイトに
クローラーのIPアドレスが載っているので
それを参考にIPアドレスを開放してやる。

Google:モバイル検索についてのウェブマスター向け情報
Yahoo:モバイル版Yahoo!検索の検索エンジン(クローラー)について
goo:モバイルgoo 携帯検索クローラについて
livedoor:モバイルサイト検索用のクローラーについて
DeNA モバゲータウン:moba-crawler
froute(エフルート):froute-crawler

参考元:携帯検索サイトのクローラーのUser-Agent(ユーザーエージェント)とIPアドレス帯域、アクセス制限解除

本来ならば、これらを集計するわけだが
すでに集計されているサイトがあるので
そちらを参考にさせていただく。

ke-tai.org ケータイキャリア・クローラIPアドレス

これをキャリアのIPアドレス群に合成してやれば
無事通過させられる。

PHP,ガラケー | 2010-06-03 (木) 18:09:16 |

コメントはまだありません »

No comments yet.

RSS feed for comments on this post. TrackBack URI

Leave a comment