Alexの一人暮らし

北陸地方に単身赴任中。毎日思ったことや、仕事で有益だと思ったことを記載しています。

私が起こした忘れられないトラブル、メンタルが強く無いと生けて行けない

私が起こした忘れられないトラブル、メンタルが強く無いと生けて行けない

 先日、「日常作業のミスを撲滅する、私の方法」と言うことで記事をアップさせて頂きました。

沢山のコメント、ありがとうございました。本当に励みになりますし、このコメントのおかげで、ここまでブログを継続出来ています。

alex175.hatenablog.jp

 

しかし、こんな偉そうな事を書いていますが、IT業界に入って、数々のトラブルやミスを起こしてきました。日常作業に限定した話にしましたが、行き着いた結論が、先ほどの記事になります。

 

今回は、過去にどんなトラブルやミスをやってしまったのか、少し紹介させて頂きます。もちろん、細かいトラブルやミスは日々発生しているので、ここでは私が会社を辞めなければいけないと思った事例に限定いたします。

(可能な限り、IT業界以外の方にも分かるように表現したいと思います。)

f:id:Alex175:20200315104539j:plain

その1:ファイルの大量削除

1990年代の最後の辺りだったと思います。その頃は、毎日プログラミングをやっていました。開発(プログラミング)作業のピークは私の経験ですと3〜6ヶ月周期でやってきます。

 

納期が目の前にやってきて、私の作業はほぼ完成しており、試験を行いプログラムバグも取り除いて、あとは納品するだけと言う時期でした。

 

プログラムを作成する工程では、主となるソースコード以外にも、数多くの不要なファイルが出来てしまいます。その不要なファイルがあると、後々分かりづらくなるので手動で削除した時です。

 

その時、コマンドを間違えてしまい、今まで作成したきたプログラムを消してしまいました。

 

バックアップもほぼ1ヶ月前のものしか存在していません。当時のバックアップ方法は、テープしか無く、今のように短時間で簡単にバックアップする方法がありませんでした。

 

このトラブルからの学びは、面倒でも手順として決まっているバックアップを取得する事です。手順は、先人たちが考えた間違い無い方法だと思います。これを決して無視する事はいけません。

 

身近な例でいいますと、スマホで写真を取っても、iPhoneの場合であればiCloudへ、Androidの場合はGoogle Photoで必ずバックアップを取る事です。

その2:ネットワーク停止による業務停止

製造業のネットワークの仕事をやっている時です。もう20年ぐらい前の話です。

 

通常であれば夜間や休日の操業が停止している時にネットワーク機器の構成変更をします。作業時間の見積もりは3時間です。

 

しかし、このお客様は、24時間365日で操業している為、ネットワークの停止が出来ません。また、ネットワーク上には、数千台の製造装置やPCが接続されており、一度ネットワークが切れてしまうと、数千台の機器をリセットしたり、データのリカバリが必要なケースでした。

 

さらに、実際に動いている機器と同等の検証機が無く、一発勝負でした。

いざ本番切替となりましたが、一発でネットワークのダウンです。

 

原因は数多くありましたが、一番は確認不足です。

この頃は、ネットワークの知識も人一倍持っていると自信もあり、プログラミングと異なり、決められたコマンドを投入するだけと天狗になっており、確認を疎かになっていました。

 

このトラブルからの学びは、検証機が無い状況ではありましたが、事前の確認作業は時間が許す限り、何度も繰り返す事です。Checkは何度やっても無駄にはならないと学びました。

その3:通話が出来ない

仕事を行う上で、メールや電話などのコミュニケーションツールを使っていると思います。

新型コロナウィルスの影響でテレワークも増え、自宅に居ても顔を見て通話ができる、ビデオ通話を使う企業も増えていると思います。

 

このようなツールが停止し使えないと、仕事にならないと思います。

私たちが便利で毎日、普通に使っているツールの裏では、数多くのシステムが稼働しています。

 

この裏で動いているシステムのアップグレード業務を行った時の話になります。

 

利用者が比較的に少ない、日曜日の夜に切替を行いました。切替後すぐは、システムとして問題なく稼働しましたが、利用者が増加する月曜日の朝になると、高負荷で全く使い物にならなくしてしまいました。

 

結局、復旧するのに、1週間の時間を要して、大勢のお客様にご迷惑をかけてしまいました。

 

原因は事前の見積もりの甘さ(チェックの甘さ)と元に戻す判断の遅さでした。このトラブルからの学びは、やはり事前確認が重要と他人任せにしない事。もう一つはトラブルが常に発生する前提にたち、元に戻すなどの復旧プランの策定とその判断基準の策定でした。

まとめ

今回、ご紹介しただけでは有りませんが、数多くのトラブルを発生させ、数多くのご迷惑をかけてきました。

 

こうやって、振り返ってトラブルを見てみると、やはり基本が疎かになっていたなあと反省です。

 

この3つ以外では有りませんが、余りにもトラブルが重大で、私は食べたものをリバースした事も何度も有ります。IT業界も何処の業界も同じだと思いますが、トラブルはどの仕事でも大なり小なり発生すると思います。最後はメンタルが強く無いと生きていけないと思っています。

 

事象と原因を紹介させて頂きましたが、根本原因は他に有りますので、次回紹介させて頂きます。少しでも、読んで頂いた方の参考や気付きになれば幸いです。