あぅあぅ 定期停電から回復が順調だったことがない。

10月の第3週末は大学の電源の定期点検のため停電だ。毎年、苦労する。なんだか毎回うまくすべてが再起動できないんだよね。

今年は、サーバ本体を学情に移動し、この電源は学情の方で管理されるから問題はないはず…..ま、毎年問題ないはず、が問題が生じるんだよね。

今回は、サーバ本体が学情にあるから、こちらで面倒をみるのはローカルな設備だけ。サーバ本体は電源が維持されるし、基幹のネットワークも維持されるはず。したがってVLANを作っている都合上、電算機室のスイッチの電源さえ確保できるのだったら、学外からメールの送受信はできるはず。ということで、土曜日の朝の停電時に仮説電源から電源をひっぱってきて、電算機室のスイッチに電源を供給した。学外からアクセスしてメールの送受信できた。夕方5時過ぎに電源が回復するので、回復したらスイッチの電源を本来の電源にもどした。土曜日、夜医学内からネットワークが利用可能になった。日曜日、朝、再び停電になるので、また仮設電源から電源を供給した。で、夕方5時過ぎ、電源が回復したとき、本来の電源に戻した。これで、土曜日と日曜日の日中は学外からのみアクセス可能、土曜の夜から日曜の朝は通常通り医学内から利用可能、日曜日午後5時過ぎから、通常通り利用可能となった。日曜日、夕方、電源を本来の供給源に接続し、mikeのネットワークが問題ないことを確認して帰宅。医学内のネットワークはチェックしなかった。問題ないだろということだからな。あとから、考えると、かりにこのときチェックしても問題は発見されなかった。

月曜日、朝、きて、mikeの配下のネットワークが動くので、のんびりと、あっちの大学の実習書をつくっていたら、基盤室職員がきて、ネットがつながらないという。うぅぅぅぅ。

調べたら、学情が設置したスイッチがいまいち動作確認がとれていないとのこと。そのせいかも…..学情の職員がきて、設定を直して、スイッチ類は問題なくなった。しかし、医学内からネットに接続できない状況は変わらない。ip address が取得できないのだ。

というわけApresiaがこけたか、ルータ(RTX3000)がこけたかだ。ある利用者から、日曜日の朝4時半まで利用できていたとの連絡があった。したがって、停電からの回復操作は正常に行われ、ネットは動いていたことになる。朝4時半から7時半までの3時間になにかが起こったことになる。

ここから先は、わからないので、本年度から委託した業者の出番だ。来てもらって調べたが、なかなか原因がわからない。ping を送るのだが、その返信時間が一定でない。どっかのサブネットが過大なパケットを送り出している可能性がある。昔、電源が回復したとき、サージでパソコンのNICが壊れ、めちゃくちゃなパケットを出し続けたことがあって、これがトラブルの原因だったことがあった。

というわけで、末端のネットワーク機器またはパソコンがめちゃくちゃにパケットを飛ばしているのではないかと疑った。サブネットのケーブルを抜き差ししたが、状況が変わるようで変わらない。ルータApresiaのスイッチを再起動するとほんの数分間だけ問題なくなる。しかし、数分経つと機能しなくなる。ウイルス感染したPCはネットが遮断されると動作をやめ、しばらくおとなしいが、ネットの接続が確認されると、パケットを出すやつがいる。古いタイプのウイルスね。今のは、ユーザがわからないようにパケットをだすのだ。だから末端のPCまたはネットワーク機器がおかしいのではと疑ったのが敗因だった。時間ばかりかかり、どのサブネットが接続すると、ネットが落ちるのか、わからない。

業者の人がようやく、ルータにコマンドを送るとルータがフリーズすることを発見。ルータ予備機に交換。しかし改善されない。予備機のアップデートができてなかった。アップデートしようやく解決。

ルータがこけたのだ。ルータがこけた原因は不明。停電は直接の原因ではなさそうだ。電源をもとに戻して8時間以上正常に動作したから。しかし、負荷が少なかったので動作していたのかもしれない。

というわけで、こけたルータは廃棄にし、予備機で運用。新しいルータを購入することとした。

あー、くたびれた。午後2時半までかかった。

追記

翌日、寝過ごした。あっちの大学へ行くのが遅くなった。くたびれていたからな。