2007年10月01日
バグと地雷
神戸新聞システム障害 オラクル社ソフトに原因 [神戸新聞]
神戸新聞社の紙面製作システムに22日、障害が発生した原因について、システムを開発した日本電気(NEC)と、日本オラクル両社は28日、データベース(DB)ソフト「オラクルデータベース」にプログラムの不具合(バグ)があったと発表した。
(略)
不具合があったのは、DBの起動時に履歴データと現在のデータを照合して不一致がないかをチェックする部分のプログラム。
(略)
日本オラクル社によると、今回のようなデータ不一致と、DBソフトの特定の手順での終了から再起動にかけての一連の動作が、同時に発生することは極めてまれで、これまで深刻なトラブルが発生した事例が世界で報告されておらず、原因究明が遅れたという。
あんまりひとごとではないバージョン&運用なんだもんでやべぇぇぇっっと思って情報を集めると
神戸新聞のシステム障害はオラクルDBの問題、修正プログラム配布へ
対象となる製品は日本オラクルの「Oracle9i Database」。データの検索を高速化する統計情報の採取処理をした後、データベースのシステムを強制終了すると、まれに起動ができなくなる問題が判明したという。
(略)
なお、神戸新聞のシステムは業務終了時の処理としてデータベースを「強制終了(shutdown abort)」する仕様となっており、同社側に運用面での問題はなかったという。
( ゚д゚) セ イ ! !
思わず意味不明な掛け声をかけたくなるほど吹いた。
なんつーかこれでデータがトンだとしても「あー、うん、トぶよねー」としかいいようがない。
今回は……どっちが悪いかといったらOracleが悪いですよそれは。
結果的にバグだったわけですし。
ただ、shutdown abortはいわゆる強制終了ってやつで、異常事態の非常手段ってやつだと思ってる。
もしかしたら踏んだ地雷が偶然バグだったんじゃねーかなーというのが正直な感想です。
abort掛けるときは多少なりともデータふっとぶ覚悟していますし。
(つーかデータはトンでないけど設定がトンだことは二度ほどある。本番で。泣いた。)
使用できちゃうことはできちゃうとはいえ、やっていいことと悪いこと
(っていうかやったら地雷踏みそうなこと)に気が付かないといろいろ笑うしかないことになるということでした。
結局誰が悪いかはおいておいて、誰が困るかっていったら現場の人なんで、
「使えるって書いてあるから使ってた! 壊れた!」じゃなくて
はじめから壊れそうなモノは(使えるって書いてあっても)使わないことが大切なんでしょう。
……まぁ、でも、ごめ、さすがにちょっと怖いかな。
これshutdown abortが常態化してたからちょっとした笑い話に思えてしまうんだが
本当のところはそんなこと全然無くて、むしろほんとにトラブってabort掛けたら
データが壊れるパターンが一つ明らかにって感じなんだよなぁ。
まぁ今回のケースは「運用にabort組み込まない」
「するならチェックポイント入れてリカバリ出来るようにする」
「あわてずさわがずレストア&リカバリ」で対応できそうで、
方法が分かってしまえばなんとか……という感じですが。
一応KNOWNも貼っておきます
現場で一時被害に遭遇した方々、
原因究明に尽力した方々、
原因出るまで(出てからもだろうか)制作の人に睨まれていた方々、
本当にお疲れ様でしたと云いたい。
abortなんてあんまり使われて無くて(使ってなくて)そのうち地雷踏みそうでOracleやっぱ運用で近づきたくない。
普段使われてない機能、いざというときの機能ほど、いざというときにぶっ壊れてて機能しないっていう法則が発動してそうで超嫌。
……あんまり不安煽るように書いてると使ってるシステム直視できなくなりそうなのでみんなと一緒に笑い飛ばすことにする。
運用ありえねぇぇぇぇっっっ!!!
そしておなじみスラドの記事に一つだけ云いたいのが
神戸新聞のシステム障害はOracle9iのバグが原因 [/.J]
ちがうよーこれ直下のコメントでも書いてあるけど、
デフォルトだったのは「Windowsサービスから停止した場合のデフォルト動作」であって、
「8以前はshutdown abortがデフォルト運用」ってわけではないんですよ。
だからそうであったとしても間違っていると思います。
そして直下のコメが浮上してこないものだから
「8以前はshutdown abort運用がデフォ」って誤解されないかがちょっと心配です。
ただし世の中には「かなり広く通常処理に使われているのを見ているので、そのこと自体には大した驚きは無い。」という方もいらっしゃるようでして世の中広いって云うか日本終了のお知らせ。
なんつーかこれでデータがトンだとしても「あー、うん、トぶよねー」としかいいようがない。
今回は……どっちが悪いかといったらOracleが悪いですよそれは。
結果的にバグだったわけですし。
ただ、shutdown abortはいわゆる強制終了ってやつで、異常事態の非常手段ってやつだと思ってる。
もしかしたら踏んだ地雷が偶然バグだったんじゃねーかなーというのが正直な感想です。
abort掛けるときは多少なりともデータふっとぶ覚悟していますし。
(つーかデータはトンでないけど設定がトンだことは二度ほどある。本番で。泣いた。)
使用できちゃうことはできちゃうとはいえ、やっていいことと悪いこと
(っていうかやったら地雷踏みそうなこと)に気が付かないといろいろ笑うしかないことになるということでした。
結局誰が悪いかはおいておいて、誰が困るかっていったら現場の人なんで、
「使えるって書いてあるから使ってた! 壊れた!」じゃなくて
はじめから壊れそうなモノは(使えるって書いてあっても)使わないことが大切なんでしょう。
……まぁ、でも、ごめ、さすがにちょっと怖いかな。
これshutdown abortが常態化してたからちょっとした笑い話に思えてしまうんだが
本当のところはそんなこと全然無くて、むしろほんとにトラブってabort掛けたら
データが壊れるパターンが一つ明らかにって感じなんだよなぁ。
まぁ今回のケースは「運用にabort組み込まない」
「するならチェックポイント入れてリカバリ出来るようにする」
「あわてずさわがずレストア&リカバリ」で対応できそうで、
方法が分かってしまえばなんとか……という感じですが。
一応KNOWNも貼っておきます
現場で一時被害に遭遇した方々、
原因究明に尽力した方々、
原因出るまで(出てからもだろうか)制作の人に睨まれていた方々、
本当にお疲れ様でしたと云いたい。
abortなんてあんまり使われて無くて(使ってなくて)そのうち地雷踏みそうでOracleやっぱ運用で近づきたくない。
普段使われてない機能、いざというときの機能ほど、いざというときにぶっ壊れてて機能しないっていう法則が発動してそうで超嫌。
……あんまり不安煽るように書いてると使ってるシステム直視できなくなりそうなのでみんなと一緒に笑い飛ばすことにする。
運用ありえねぇぇぇぇっっっ!!!
そしておなじみスラドの記事に一つだけ云いたいのが
神戸新聞のシステム障害はOracle9iのバグが原因 [/.J]
Oracle8まではshutdown abortデフォルトだった [oracle.co.jp]らしいので、Nの担当者の方が8までの知識を元に手順書を書いていたのではないかと。
ちがうよーこれ直下のコメントでも書いてあるけど、
デフォルトだったのは「Windowsサービスから停止した場合のデフォルト動作」であって、
「8以前はshutdown abortがデフォルト運用」ってわけではないんですよ。
だからそうであったとしても間違っていると思います。
そして直下のコメが浮上してこないものだから
「8以前はshutdown abort運用がデフォ」って誤解されないかがちょっと心配です。
ただし世の中には「かなり広く通常処理に使われているのを見ているので、そのこと自体には大した驚きは無い。」という方もいらっしゃるようでして世の中広いって云うか日本終了のお知らせ。
投稿者 kagerou : 2007年10月01日 21:50
トラックバック
このエントリーのトラックバックURL:
http://scriptlife.hacca.jp/cgi-bin/MT/mt-tb.cgi/534