このブログも1年が経った訳だが、サイトへの攻撃はもちろん、グレーな感じのクローラーのアクセスもやたらと増えた。
可能な限りお金をかけずにサイト運営をしているので、一般的なレンタルサーバーと違いWordPress非推奨な環境である。
一般的なWordPressのサイトは、裏でcronと呼ばれるプログラムが動作しており、時間になると自動で各種処理をしてくれる。たとえば自動投稿だとかだ。cronはWindowsでいうところのタスクスケジューラに相当するものである。
さくらインターネットのライトプランでは、一般的なcronのサービスは提供されていない。そのためWordPressに標準で備わっているWP-Cronを利用している。
やや動きが違っており、例えば12時に自動実行するプログラムがあったとすると、12時以降に初めてアクセスがあったら実行するという動きをする。そのため、アクセスが無いと実際に実行されるのは15時になったりだとかで遅延するのだ。そのため、なるべくアクセスがある状態が望ましい。当初は全くアクセスが無かった訳で無意味なロボットのアクセスも大歓迎だった。枯れ木も山の賑わいで、アクセスさえ有ればWP-Cronは想定した時間内にほぼ実行されていた。
ところがである。
最近は同じタイミングで複数のロボットがアクセスしてくるため、たまに想定外のサーバーエラーが発生するようになってきた。もっとも安いプランのためか、すぐにアクセス過多になってしまうのである。
そこで、ちょうど1年経過したことから、2025/06/12に手動でrobots.txtを設置してみた。
robots.txtとは、ロボット(クローラー)に対してアクセス方法を指示する物だ。更新リストの提供や、クロールしてほしくないロボットを名指ししたりする。
GoogleやBingなどの検索エンジンは、まずここの内容を確認してから新規投稿や更新を探してクロールする。
通常WordPressは自動で生成してくれるし、弄るようなことも無いので知らなくても問題は無い。
最新はhttps://www.nouno.com/robots.txtの内容だ。
本来はプラグインとかで変更するのが望ましいようなのだが、面倒なのでFTPで直接アップロードした。
このrobots.txtだが、グレーなロボットでも大抵は指示に従う。従わない場合はブラックリストとして登録され強制的にアクセス遮断されてしまいサービスの提供が困難になってしまうからである。
この中で特に遮断したいサービスはMJ12botとAhrefsBotだ。
それぞれMajesticとAhrefsというSEO対策会社のものなのだが、MJ12botは全アクセスの15%、AhrefsBotは5%を占めていた。アホじゃないかと思うほどのアクセス数だ。お金を払えば、それなりのサービスを受けられるようだが、払う気も無い自分としては迷惑なだけである。
その他もろもろ不要と思われるロボットを拒否してみた。これで全アクセスの30%が削減される想定。

ここで前回の表だ。直近の2025年5月と6月のKBytesを見比べてみて欲しい。前月よりアクセス数が増えているにも関わらず6,162,961KB(6.16GB)から4,616,780KB(4.62KB)へ減っているのが分かるだろう。なんと半月で1.5GBも転送量が減った。これが全部無駄なアクセスだった訳で、約1/4も減ったのである。今では大分ゆるくなったが、レンタルサーバーは転送量が多いと別料金になるのが一般的だ。特にインターネット黎明期なら、1GBを超えると怒られてしまうような時代だった。このサイトはさくらインターネットのコンテンツブースト(CDN)を利用しているのだが、無料枠を超えると1GB/5円が請求される(現実的には無料枠のみで止めているし、超えそうにも無い)。
robots.txtはアクセスが最も多く、一日数十アクセスで月間2000アクセスくらいある。マニア以外に見る人もいないので、ほぼ全部がロボットだ。このページを更新するようなことはほとんど無いため、コンテンツブーストで7日間キャッシュするようにした。更新するようなことがあれば手動でキャッシュクリアすれば良いし。
理論上はこれで月に4~5アクセスしかオリジンサーバへアクセスが無いはずだ。実際にアクセスログにも残らなくなった。そして迷惑なMJ12botとAhrefsBotのログも全く見ることが無くなった。入口で出入禁止処置をしたからである。GoogleやBing等の検索エンジンは「通ってよし!」の設定なので、今まで通りクロールしている。
この設定で今のところデメリットはあまり感じていない、たださすがに1/4もアクセスが減るとWP-Cronの実行が遅延するようになった。最大で30分位かな?
クリティカルな利用はしていないので、この位の遅れであれば許容範囲内である。
AIクローラーについては、まだ対応していないのだが、llms.txtへのアクセスがそれなりにある。このファイルは最近規格が決まったようで、存在自体を全く知らなかった。アクセスログで初めて知ったのだが、まだまだ一般的では無いらしく知らなくてもギリギリセーフらしい。ちょっと焦ったのだが、なんとか老兵でも遅れを取ってはいないようだ。
そのうち勉強がてらllms.txtを設置してみようと思う。
コメント