• Japanese

特集

KISH6リプレース奮闘記

ITC:CNS(Campus Network System)ワーキンググループ


2015年度は慶應情報スーパーハイウェイ(KISH:Keio Information Super Highway)第6期(以下、KISH6)として、三田、日吉、信濃町、矢上、芝共立の各キャンパスのネットワーク装置と義塾基幹ネットワーク装置の置換えを行いました。安定稼働していて当たり前のネットワーク環境ですが、旧システムから新システムへの置換え時には毎回トラブルに見舞われています。今回は、KISH第5期(以下、KISH5)からKISH6への置換え時に起こった、普段はなかなか知ることができない裏方のドラマをオムニバス形式で紹介します。なお、置換えの作業は、各キャンパスについては各キャンパスに居を置くインフォメーションテクノロジーセンター(以下、ITC)が、義塾基幹ネットワークについてはITC本部が担当し、信濃町キャンパスを除き、利用者への影響が最小となる夏季一斉休業期間に実施しています。

それでは、三田キャンパスからスタートです。

---------------------------------------------------------------------------------
三田キャンパスでは、シスコシステムズ社製Catalyst 6509(以下6509) 2台で構成されたVSS(*1)を運用していた。置換え後も、同社製Catalyst 6807-XL(以下6807-XL) 2台で構成されたVSSを運用する事とした。

置換え時、なるべくダウンタイムを減らすべく、下記の手順を想定していた。

1)現用中のVSSを構成する片側の6509の電源を落とし、配線を撤去し、19インチラックからアンマウントする
2)空いた場所に6807-XLをマウント、再配線を行う
3)現用中のもう片側の6509の電源を落とす
4) 2)でマウントした6807-XLを起動させキャンパスネットワークの機能が回復した事を確認する
5) 3)で電源を落とした6509から配線を撤去し、19インチラックからアンマウントする
6)空いた場所に2台目の6807-XLをマウントし、これを起動させ、VSSが構成された状態にしてから、残っている配線を行う

作業を行う業者には事前の打ち合わせ時に、口頭で先の様な説明しか行わなかった。作業開始時、少し離れた場所で待機していたところ、ネットワークが利用できなくなった。確認すると、電源断されているはずの6509は通電しており、全ての配線が撤去されていた。おそらくVSSを構成するために必要となるVSL(*2)で利用していた配線を最後まで残さずに撤去したのだろう。VSSは本来1台がアクティブスイッチ、もう1台がスタンバイスイッチとして動作しており、アクティブスイッチに障害が発生した場合にのみスタンバイスイッチがアクティブスイッチに昇格し、ネットワーク装置としての機能を継続する仕組みになっている。今回意図せずVSLが切断されたために、スタンバイスイッチはアクティブスイッチに障害が発生したとみなしアクティブスイッチに昇格した。結果として両方のスイッチがアクティブスイッチとなってしまい、下流に接続されているネットワークスイッチ経由でデュアルアクティブ状態を検知したVSSはリカバリーモード(*3)になっていた。

正確に作業内容を説明しなかった事を後悔しつつ、ダウンタイムは長くなるが、旧装置の全停止、撤去、新装置の設置、起動という単純な置換え作業とする事にし、このまま作業を続行する事を選択した。
---------------------------------------------------------------------------------

作業手順の摺り合わせがいかに重要かということが分かる三田キャンパスのエピソードでした。

続いて日吉キャンパスです。

---------------------------------------------------------------------------------
日吉キャンパスでは、独立館と来往舎を除いた約240台の装置のリプレースを実施した。今回の置換えにあたっては、耐障害性向上の為、機器構成等を見直して以下の改善が期待されていた。

1)サーバを収容するネットワークスイッチをすべて2台構成として、1台のスイッチに障害が発生してもWebサービス等の提供を維持できる
2)利用者の意図せぬ配線によって発生する広範囲のネットワークに影響を与えるネットワークループ(*4)の早期検知ができる

置換え作業開始後、多少の問題はあったものの順調に進んでいたが、開始から3日目に新旧装置間接続の設定間違いによりネットワークループが発生し、本件の対象外となっている独立館、普通部、横浜初等部等の装置が一斉に接続不可となった。復旧には装置設置場所での対応が必要であり、作業場所から徒歩5分程度の日吉駅に近い独立館で各フロア3か所全6フロアを巡回し対応を行うと共に、日吉駅から更に徒歩5分程度要する普通部まで出向いて対応を行ったが、2つの鉄道会社を乗り継いだ先の横浜初等部は現地の職員に対応を依頼した。その後、平穏な置換え作業が続いた5日後に同様の障害が発生し、独立館、普通部は再度対応を行ったが、横浜初等部は日曜日であったため、翌朝現地に出勤して対応を行った。2度目の問題は、置換えで改善を期待されていた 1)のサーバ向けスイッチ構成変更時の配線間違いにより、ネットワークループを発生させたことによるものであった。

今回の置換えでは、日吉キャンパスのみならず、普通部や横浜初等部へも影響が及び、影響範囲の広さを実感し、改善を行う上での痛みも体験した。幸いなことに利用者が少ない置換え作業中のトラブルであったため、原因や場所の特定は迅速に行うことができた。実運用中には、利用者である学生・教職員が配線を間違うことで同様の問題を発生させることが多々あり、今回改善が期待される2)のネットワークループの早期検知では、発生場所を速やかに特定することができるため、今後は障害の早期復旧、安定稼働を提供できるものと期待している。
---------------------------------------------------------------------------------

置換え時期が異なるシステムが混在している場合には、置換えないシステムに与える影響を充分に考慮しなければならないことが如実に分かる日吉キャンパスのエピソードでした。

続いて信濃町キャンパスです。

---------------------------------------------------------------------------------
信濃町キャンパスは、まずその特殊性から説明する必要がある。大学病院を擁する信濃町キャンパスは、他のキャンパスとは異なり、夏季一斉休業期間が存在しない。つまり、ネットワークは常時稼働した状態にあり、利用者がいない時に全停止、全置換えといった単純作業は行えないということである。このような環境でのネットワークの置換えは創意工夫と根性が必要で、利用者から見たネットワーク停止時間が極小になるような努力を行っている。今回は8月上旬から9月下旬の一ヶ月半をかけ慎重に置換えを行った。

最初に、信濃町キャンパスのネットワークの根幹である新システムのコアスイッチ(*5)(2台)の設置を行った。ネットワークの停止ができない以上、その分設置場所は必要であるが、旧システムと新システムの二重稼働は必須である。ことコアスイッチについては、停止してしまうとキャンパスネットワーク全体が利用不能となってしまうため、新旧システム相互を接続し、設定を工夫することによって、置換え期間中を通して新旧両システムが有効となるようにした。 コアスイッチの置換え工程自体は順調であったが、置換え期間中から完了後にかけて、特定の条件における通信が正しく行われず、結果としてネットワークが不安定となる症状が発生した。原因はコアスイッチ上のソフトウェアの不具合であったが、最新かつ新品の装置を疑うことにはなかなか思い至らず、特定には時間を要した。現在は、新しいバージョンを導入することによりこの問題は収束している。

続いて、各階の情報コンセントを収容しているエッジスイッチ(*6)の置換えを行っていくことになるが、旧エッジスイッチを稼働された状態のまま、上流接続、個別設定済みの新エッジスイッチの電源を入れ、すばやく末端のパッチケーブルを旧から新へ差し替えていくことで、利用者から見て瞬断に近い状態で置換えを実施していった。エッジスイッチは200台強(100ネットワークノード強)あり、平日の昼間に1日10台前後ずつ実施していった。信濃町キャンパスは古い建物が多く、エッジスイッチの設置場所を他のシステム設備と共存している場合もあり、新旧エッジスイッチを二重設置できないネットワークノードも相当数あった。このような場合には電源の入ったエッジスイッチを抱きかかえながら切り替え作業を実施した。これが創意工夫と根性が必要と前述した理由である。このような状況もあり、新規に建物を建てる場合には、装置の置換えまで考慮してネットワークノードを設計・整備する必要があることを痛感している。
---------------------------------------------------------------------------------

特殊なキャンパス事情を創意工夫と努力と根性で乗り切っていることが分かる信濃町キャンパスのエピソードでした。なお、初物にトラブルはつきものとはいうものの、今回発生した最新機種のソフトウェアの不具合は、信濃町にとどまらず、全キャンパスに影響するものであったことをここに追記しておきます。

続いて矢上キャンパスです。

---------------------------------------------------------------------------------
矢上キャンパスでは、2014年1月に竣工した34棟を除く全館のネットワーク装置を対象として置換え作業を実施したが、残念なことに4年前の置換え時に引き続き、今回も数々のトラブルが発生した。

一番頭を悩ませたのは、コアスイッチとエッジスイッチ間の複数の1ギガビットイーサネット(*7)接続のうち一部がリンクアップ(*8)しない症状が各所で発生した問題である。当初は前回の置換え時と同様のSFPモジュール(*9)の相性問題かと思われたが、切分けの結果SFPモジュールの問題ではないと判明した。しかし、切分け作業の過程で、リンクのアップダウン(*10)が発生するとコアスイッチがしばらく高負荷になるという別の問題を誘発することが判明したため、装置の置換えスケジュールも押している中で十分な検証ができず、運用開始までに解決することができなかった。その後もなかなか停止作業ができないこともあり、この問題は2016年8月現在でも全面解決には至っていない。

その他、前述したコアスイッチが高負荷になる問題や、義塾基幹ネットワーク装置とのOSPF(*11)のネイバー(*12)が不安定になる問題、コアスイッチの10ギガビットイーサネットモジュールから短いイーサネットフレーム(*13)が送出されない問題、CLI(*14)で設定内容を表示する命令を発行すると装置を設定するための接続が操作不能になる問題など、大小さまざまな問題が発生し、そのうちいくつかは現在も対応が続いている。

前回の置換え時に引き続いてのトラブル多発であるが、今回は導入業者も異なるのになぜ矢上ばかりこんな目にあうのか?と思いたくなるが、実際にはこれらのうちの一部は元をたどれば矢上キャンパスのネットワーク構成自体に遠因があったと考えている。現在、今後のために構成変更等の対処を順次実施しており、次回の置換え時にはトラブルが減少することを期待している。そういう意味では、今回のKISH6置換え作業は古いネットワーク構成を見直すいいきっかけになったと今では考えている。
---------------------------------------------------------------------------------

なぜ矢上キャンパスばかりが?古き良き時代から脈々と受け継がれてきたネットワーク構成を見直す機会を得た今後の矢上キャンパスに期待がふくらむエピソードでした。

続いて芝共立キャンパスです。

---------------------------------------------------------------------------------
芝共立キャンパスは他キャンパスと比較すると規模が小さいため、置換え作業は1日で完了することと比較的目が配れることもあり、幸い大きなトラブルなく完了している。しかし導入時もさることながら、この案件で毎回大変なのは導入する前の要件作成だと常々感じている。

8月の夏季一斉休業期間中に置換え作業を行うことが通例となっているため、前年度末くらいから調達準備が始まる。システム全体の調達金額が大きく、諸々の会議体による決裁が必要なため、スケジュールとの戦いでもある。それゆえ、各販売会社の方々にはタイトなスケジュールでシステム提案ならびに見積もりを依頼することが多くなるのだが、この依頼を早くできればと思う反面、早すぎると製品ラインアップ切替え時期との兼合いで、新製品での見積もりが出せないなど、いろいろと悩ましいものである。また、依頼にあたって、こちらの要望をまとめつつバランスのとれた要件定義書を作成するというのは、とても骨が折れるし時間を要するものである。

もう少し注文手続きに至るまでの過程をスピーディーにできると仕事の進め方が変わり、もう少し全体の工数も落とせたりするのではないかとも思うが、なかなか難しいものだ。
---------------------------------------------------------------------------------

キャンパスの規模が小さいためトラブルらしいトラブルには見舞われておらずうらやましい限りですが、比例して事務室の規模も小さいため置換え作業そのものよりも事務手続きや要件定義に苦労が絶えない芝共立キャンパスのエピソードでした。

いよいよ、最後は義塾基幹ネットワークです。

---------------------------------------------------------------------------------
ここでは、義塾基幹ネットワークを構成する主たる装置で、主要キャンパス間を相互に接続し、塾内外の出入口ともなっているバックボーンルータ(以下、BBルータ)にまつわる苦労話を紹介する。このBBルータは各キャンパスに設置されているが、ITCが管理・運用している装置の中では最も重要なもののひとつである。もし仮にこれが停止してしまうと、キャンパスのネットワークが孤立してしまったり、インターネットへの接続ができなくなるなど、メールや塾内外のオンラインサービスの利用に影響し、結果として教育・研究・学校経営等に多大なる損失を与える恐れがある。このため、BBルータの置換え時期や手順は慎重に検討する必要があった。今回は、各キャンパスの夏季一斉休業期間等を利用し、できるだけ利用者への影響が最小となるよう、各キャンパスにおける作業を進めた。そして、すべてのキャンパスで機器の置換えが完了し、めでたくリプレース終了!

・・・となるはずだったのだが、導入したBBルータには致命的な不具合がいくつか潜んでいたのである。ルータにはACL(Access Control List)と呼ぶ通信アクセスを制御する機能があるが、このACLの設定に関する不具合がそのひとつであった。ACLは正しく設定しないと、正常な通信を妨げたり、逆に不正な通信を制限することができず、塾内からの接続のみを許可したいサーバやプリンタに外部ネットワークからも接続されてしまい情報漏洩にもつながる可能性があるなど、非常に重要な設定項目である。その他にも、キャンパス間の接続に使用しているVPLS(*15)において、回線や装置などの障害時に通信経路を自動で変更する仕組みがうまく働かず、経路が変更されない不具合が存在し、キャンパスコアスイッチの各種不具合との組み合わせにより原因究明が困難なトラブルが多数発生した。

我々はACLの不具合をはじめとする各種の不具合について、迅速に対処を進めるための準備を進めたが、不具合が修正されたソフトウェアのリリース待ちと事前の検証、さらに、夏季一斉休業期間が終わった後の各種調整等、再度の各キャンパス行脚が必要な事態となってしまった。そして、最終的には無事作業を完了できたものの、季節はもう冬になっていた。

システムを構成して初めて顕在化する未知の不具合は、事前の机上の検討や準備ではもちろん対処できるものではないが、次回はこのような不運に遭遇せず、無事に作業が終わり、皆様が不断の快適なネットワーク環境を利用できるように作業が進むことを心から願っている。
---------------------------------------------------------------------------------

充分な下準備と慎重に検討された日程調整があったにもかかわらず、未知なる不具合により想定外の事態へと誘われてしまった義塾基幹ネットワークのエピソードでしたが、皆さんお気付きですか?トラブルの終息は「冬」だったはずですが、ネットワークは普通に使えていたということに。いくつかの致命的な不具合を抱えたまま運用する... 実は相当な綱渡りだったのではないでしょうか。

さて、いかがでしたか?今や電気や水道と同じく普遍のインフラストラクチャとなったネットワークですが、その置換え時には見えないところで様々なドラマが展開されていることをお伝えできたと思います。

今回の置換えにあたり、ご調整いただきました各部門の教職員の皆様、お力添えいただきました装置の納入業者や製造会社の皆様、また日頃からITCの活動にご理解をいただいております利用者の皆様に心より感謝申し上げます。皆様のご協力により、今日のネットワークの安定稼働があります。ITCは、これからもネットワークの安定稼働に尽力してまいりますので、今後とも皆様のご理解、ご協力をよろしくお願い申し上げます。


(*1)VSS(Virtual Switching System)・・・2台のネットワークスイッチを仮想的に1台に見せる仕組み。完全筐体冗長であるため、耐障害性に優れる。
(*2)VSL(Virtual Switch Link)・・・VSSを構成する2台のネットワークスイッチ間の接続。
(*3)VSSのリカバリーモード・・・デュアルアクティブ状態(=VSLの障害)を検知したVSSアクティブスイッチが、影響を最小化するためVSL用以外のインタフェースをシャットダウンし、VSLが回復するまで待機している状態。今回は2台ともがこの状態に陥っていたため、回復には人的介入が必要であった。
(*4)ネットワークループ・・・ネットワークの配線がループ(環状)になっている状態。この状態で通信を行うと環状の経路をデータが無限に転送され続け、ネットワークの帯域が埋め尽くされて通信が行えなくなる。高機能なネットワークスイッチは、この状態を検知し、影響を抑えるためにインタフェースをシャットダウンする機能をもっている。このケースでシャットダウンされたインタフェースを回復させるには、通常人的介入が必要で今回のトラブルはこのケースに該当する。
(*5)コアスイッチ・・・各キャンパスの根幹のネットワークスイッチ。キャンパスに散在するネットワークノードに設置する末端スイッチを束ねる。また、異なるネットワーク間のルーティング(相互通信を媒介する)機能を有する。
(*6)エッジスイッチ・・・キャンパスに散在するネットワークノードに設置される末端スイッチ。各室に配備されている情報コンセントを収容する。
(*7)イーサネット・・・コンピュータネットワークの技術規格のひとつで、一般的に最も使用されている規格。通常、オフィスや一般家庭でLAN(Local Area Network、ラン)と言えばこの規格のことである。接頭辞によって帯域の大きさ(速さ)を表すことがある。(例:ギガビットイーサネット)
(*8)リンクアップ・・・ネットワーク装置間が正常に接続できている状態。
(*9)SFP(Small Form-factor Pluggable)モジュール・・・ギガビットイーサネットの伝送装置の一つ。今回のものはギガビットイーサネットを光ファイバで伝送するための伝送装置。
(*10)リンクのアップダウン・・・ネットワーク装置間の接続が繋がったり切れたりすること。
(*11)OSPF(Open Shortest Path Fast)・・・データの転送先を動的に決定するため通信装置間で経路情報を交換する手順の一つ。詳しくは割愛する。
(*12)OSPFのネイバー・・・OSPFを使用する通信装置のネットワーク隣接情報。詳しくは割愛する。
(*13)イーサネットフレーム・・・イーサネットの通信を行う際に使用するデータ形式。
(*14)CLI(Command Line Interface)・・・情報の表示ならびに装置の操作をキーボードを用いた文字情報によって執り行うユーザインタフェース。
(*15)VPLS(Virtual Private LAN Services)・・・広域イーサネットサービスを提供するための技術規格。離れた拠点同士を接続する回線や仕組みを隠蔽し、拠点間をあたかもLANで接続しているかのように運用することができる。詳細は割愛する。

最終更新日: 2016年10月14日

内容はここまでです。