
Как расчитывать такие показатели?
Производители железных компонентов обычно пишут для низ MTBF (mean time between failures / среднее время до отказа) - по-идее это есть готовая вероятность...
Хорошо, проедположим что есть вероятности для всех-всех основных железок из которых состоят серваки и инфраструктура - что дальше то? Вероятность выхода из строя сервака как целого, наверно можно посчитать на основании вероятности для самого слабого из его компонентов? Например, если для процессора Р = 0.000001, а для единственного жесткого диска Р = 0.001 то сам сервер будет полностью зависеть от работы диска и вероятность его отказа = 0.001...
У меня в кластере будет 4 машины и один стекуемый свитч состоящий из 2х частей. 2 машини это ноды данных, вторые 2 машины это ноды SQL - они дублируют друг друга. Таким образом мне нужно найти вероятности одновременного выхода из строя для 2х нод данны (Рdata), потом для 2х SQL нод (Рsql), потом для свитча (Pswith), а потом просто перемножить их между собой: Рdata х Рsql х Pswith

В итоге я получу, скажем число 0.0001 для вероятности сбоя железа, что есть 99.999 вероятность не сбоя - она же бужет желанный uptime?
Я правильно рассуждаю? Кто-нить пните в верном направлении если ошибаюсь.
