ここ3日くらい継続してEnterpriseVault関連のシステムの不具合を追っています。どうやらネットワーク周りがおかしそう…というのは前からわかっていて、TCPコネクションも何やらいっぱいあることもわかっているのですが、でも、やっぱりよくわからない状況だったのです。
で、今日はやっとお客さんのサーバー上でリアルタイムに各種ツールを実行したりパケットを取得したりしながら調査をさせてもらうことができました。
それでもコネクション数は非常に多いけど別に今はネットワークおかしくないね・・・って感じだったのですが、WireSharkで「tcp.analysis.retransmission || tcp.analysis.duplicate_ack || tcp.analysis.ack_lost_segment」あたりのフィルタをかけながらトラフィックを追っていたら、パケットサイズが4KBを超えているようなものを発見。Jumboframeは使えない環境だったので、そのあたりなにやらおかしな事になっており、根本原因の尻尾を捕まえた気がします。
残念ながら今日はそのあたりで時間切れになってしまったけど、来週の頭にはトラブル解決といけるかな?