Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?

GIGAZINEのハードディスクに関する4つの都市伝説とかで気になったので、7章のConclusionだけ、超おおざっぱにまとめてみたよ!
あくまで自分のためにやったものなんなので、非常に乱暴なものですが、意味とかがずれている部分があったらご指摘ください。

ところで、RAIDに関する項目は 5.3 Distribution of time between failure に書かれていて、リビルド中に全アクセスするから次のディスクが壊れる率が4倍というのは感覚的にも正しいんですが、結果的にメーカーが儲かっているに過ぎないというのはどこなんだろう。少なくとも、交換率4倍程度で「それほど高まってはおらず」は言い過ぎという感覚なんだけど、あとで原文ちゃんと読まないと。
まぁ、そもそもRAID5を使うケースって、信頼性はRAID1より低い(でも許容範囲内)けど容量が欲しい場合だと思います。

* Large-scale installation field usage appears to differ widely from nominal datasheet MTTF conditions. The field replacement rates of systems were significantly larger than we expected based on datasheet MTTFs.

  • 大規模な環境での経験則では、データシート上のMTTFよりずっと高い交換率だった。

* For drives less than five years old, field replacement rates were larger than what the datasheet MTTF suggested by a factor of 2-10. For five to eight year old drives, field replacement rates were a factor of 30 higher than what the datasheet MTTF suggested.

  • 5年未満のディスクは、データシートのMTTFより2-10倍の交換率だった。
  • 5-8年のディスクでは、データシートの30倍だった。

* Changes in disk replacement rates during the first five years of the lifecycle were more dramatic than often assumed. While replacement rates are often expected to be in steady state in year 2-5 of operation (bottom of the ``bathtub curve''), we observed a continuous increase in replacement rates, starting as early as in the second year of operation.

  • 最初の5年間での交換率の変化はドラマチックだよ。
  • 交換率は1年を過ぎると定常状態に落ちるバスタブカーブを描くと思っていたけど、2年目からも普通に増え続けるよ。

* In our data sets, the replacement rates of SATA disks are not worse than the replacement rates of SCSI or FC disks. This may indicate that disk-independent factors, such as operating conditions, usage and environmental factors, affect replacement rates more than component specific factors. However, the only evidence we have of a bad batch of disks was found in a collection of SATA disks experiencing high media error rates. We have too little data on bad batches to estimate the relative frequency of bad batches by type of disk, although there is plenty of anecdotal evidence that bad batches are not unique to SATA disks.

  • SATAディスクの交換率はSCSI/FCディスクの交換率と遜色なかったよ。これは、ディスクに関係ない問題によるものの方が、ディスク自体の要因よりも交換率に影響するってことだよ。
  • でも、駄目なディスクについての唯一の根拠は、高いエラー率があったSATAディスク群でしか見つかってない。駄目なディスクはSATAディスクに特有ではなかったという結果は出ているけど、ディスクの種別によって相対的な差異があると推測するほどのデータは集まってないよ。

* The common concern that MTTFs underrepresent infant mortality has led to the proposal of new standards that incorporate infant mortality [33]. Our findings suggest that the underrepresentation of the early onset of wear-out is a much more serious factor than underrepresentation of infant mortality and recommend to include this in new standards.

  • MTTFは初期不良率を過小評価しているという懸念から、初期不良率を含めた新しい標準が提案できるよ。
  • 早期に壊れるディスクを過小評価しているのは、初期不良よりもずっと深刻だし、これを新しい標準に入れるべきだよ。

* While many have suspected that the commonly made assumption of exponentially distributed time between failures/replacements is not realistic, previous studies have not found enough evidence to prove this assumption wrong with significant statistical confidence [8]. Based on our data analysis, we are able to reject the hypothesis of exponentially distributed time between disk replacements with high confidence. We suggest that researchers and designers use field replacement data, when possible, or two parameter distributions, such as the Weibull distribution.

  • 交換率は指数分布に従うというこれまで信用されていた仮説は間違ってたよ。
  • 研究者は設計者は、可能ならば実データを元にしなければならないし、それができなければワイブル分布のような、2パラメータ分散を使わなければいけないよ。

* We identify as the key features that distinguish the empirical distribution of time between disk replacements from the exponential distribution, higher levels of variability and decreasing hazard rates. We find that the empirical distributions are fit well by a Weibull distribution with a shape parameter between 0.7 and 0.8.

  • 交換率の時間分布が実測値では指数分布に従わないのは、高いばらつきもあるし、ハザード率が低下するせいだよ。
  • 我々の実測値では、形状パラメータが0.7〜0.8のワイブル分散によく従っていたよ。

* We also present strong evidence for the existence of correlations between disk replacement interarrivals. In particular, the empirical data exhibits significant levels of autocorrelation and long-range dependence.

  • ディスクの交換間隔に相関関係が存在すると言えるだけの強力な証拠があったよ。
  • 具体的に言うと、実測値では大きな自己相関と長期の依存関係が見られたよ。