ネットが落ちた

昨日(11日日曜日午後9時過ぎ)に雷が落ちた。当然、管理者は自宅にいたわけでアルコールもそこそこ入っていたわけで、上の階でなんかやっているんかな、うるさいな と思ってねてしまったわけだ。翌朝、こっちの大学に出勤して気がついたのだが、大学では雷のため停電(1分以内)があったらしい。

このサーバはUPSのおかげでなんともなかった。医学ネットの基幹であるルータとスイッチが何故かわからないが動作がおかしくなったようで、電源が回復してももとに戻らなかったようだ。

管理者のパソコンはmikeと同じネットワーク上にあるので、そして、mikeのネットも大学の基幹ネットは問題なかったし、サーバは学情にあってこれも問題ないし、出勤してきても、医学のネットワークが落ちているのに気がつかなかった。9時すぎて基盤室の職員がつながらないといってきた。

症状がip addressが取得できないということなので、ルータとスイッチを再起動した。それでもだめだ。一部いいらしいがほとんどがだめである。というわけで、外部管理業者に連絡して対応してもらうことにした。それが昨年のサーバ移行の大きなメリットだからな。で、原因をさぐると、 ip address の要求が多すぎてルータがオバーフローしてしまうようだ。昨晩の停電回復時にリセットすれば、要求が少なかった、朝になってユーザがパソコンをたちあげても、時間がばらばらなので要求が多すぎることはない。しかし、今回は、時間がたって、多くのユーザがip address を取得できないので、どんどん要求を繰り返すことになり、過負荷になってしまったのだろう。

各セグメントを遮断し、セグメントを1つずつ順番に時間を置いて接続していけば、なんとかなる。今回はそうしないで、いままでDHCPサーバをルータにしていたのだが、スイッチに切り替えて対応した。スイッチはアドレスを合計で2048 ヶしか配布できない。35セグメンもあるから1セグメントに50ヶしか配当できないのだ。しかし、各研究室にルータが普及してきたので、なんとかなるだろ。

明朝、出勤する前に、元に戻すことにした。要求が重ならないと思うからだ。

今後もあり得る事態なので、ユーザには固定ip addressを使うように指導することにする。ノートとかを使うユーザのためにDHCPサーバを運用していけばいいのではないかということにした。

ネットのトラブルは月曜日に生じる(判明)するのだ。雷が日曜日を選んで落ちたのが、けしからんのだ。月曜日でなかったら、今の勤務状況では管理者が動き回れないから回らなくてすむのに。