5 предупреждающих знаков критического отказа оборудования

Видео: ПРО Безопасность / HAZID / HAZOP / доцент Ахтямов / проектировщик Макушин

Содержание

Что такое MTBF?
Маршрутизация
Выключатели
Эластичная сила
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Защищенное хранилище
Серверы
MTBF: он тоже может потерпеть неудачу

вынос:

Сокращение времени простоя благодаря тщательному предварительному планированию может означать разницу между ростом и спадом бизнеса. Вот где приходит среднее время между неудачами.

Не стоит недооценивать, насколько современные корпорации полагаются на критические системы каждый день. Вот почему здравый смысл заключается в том, что предприятие сможет измерить риск отказа оборудования. Без гарантий того, когда часть оборудования может выйти из строя, должна быть, по крайней мере, точная оценка того, когда она больше не может считаться надежной.

В противном случае невидимая часть оборудования может не показаться критичной для бизнеса, но если один вентилятор охлаждения выходит из строя, генератор отбрасывает призрак и вызывает у десятков или даже сотен тысяч пользователей дорогостоящие проблемы на длительный период, вы можете убедитесь, что возможность определить, какие компоненты вашей инфраструктуры могут выйти из строя, а когда - имеет первостепенное значение. Вот где наступает среднее время между отказами (MTBF), метод, на который ИТ-специалисты полагаются для точного оценки о том, когда критическое оборудование выйдет из строя. Здесь мы рассмотрим, что в итоге убивает некоторые распространенные типы критического оборудования, и как MTBF может помочь сохранить день.

Что такое MTBF?

Каждому произведенному IT-оборудованию присваивается уникальный номер модели. Те, которые играют определенную роль в критической инфраструктуре, поставляются клиентам с оценкой MTBF. Сложные расчеты для определения MTBF для единицы оборудования выполняются на этапе длительных испытаний в рамках исследований и разработок продуктов и относительно специфичны для конкретной модели.

Если вы ищете MTBF для определенного оборудования, вы найдете его в подробном техническом описании, предоставленном производителем. Вы также можете напрямую связаться с производителем.

Маршрутизация

Маршрутизатор корпоративного уровня состоит из множества частей, некоторые из которых движутся, а другие статичны. Блоки питания (PSU) и охлаждающие вентиляторы имеют движущиеся части и те элементы, которые, как правило, являются точками отказа, особенно если блок не размещен внутри относительно беспыльного центра обработки данных. К счастью, с некоторыми административными данными большинство маршрутизаторов будут отчитываться SysLog средство, так что любые неисправные компоненты могут быть помечены.

Выключатели

Аналогичным образом, следующим уровнем в сети предприятия является коммутационное оборудование. Хотя коммутаторы корпоративного уровня также имеют тенденцию полагаться на вентиляторы, их обычно меньше, чем в шасси маршрутизатора. Если механизмы жужжания вентиляторов не повреждены, то неисправный коммутатор обычно будет плохо себя вести на программном уровне, либо неожиданно отключая порт коммутатора, либо, что более часто, демонстрирует необычное поведение, такое как отбрасывание пакетов, вызывая различные уровни прерывания трафика или неправильное изменение пользовательские настройки без запроса на это.

Сетевой гигант Cisco объявляет один из своих маршрутизаторов как имеющий MTBF 188 574 часов для модели Cisco Catalyst 3750G-24TS. Если мы разделим это на 8 765 81277 (количество часов в году), то мы увидим, что эта модель имеет оценку MTBF около 21,5 лет. Эта цифра является некоторой гарантией, если учесть, что это оборудование должно работать хорошо 24/7 без сбоев, хотя, конечно, в действительности это просто показатель его надежности. Тем не менее, это дает пользователям обоснованное предположение относительно того, как долго этот элемент оборудования может прослужить.

Эластичная сила

Источники бесперебойного питания (ИБП), подключенные к большому количеству батарей, могут обеспечить резервное питание внутри предприятия в течение краткого периода, прежде чем генераторы раскрутятся во время отключения электроэнергии. Определенные специфические сбои программного обеспечения могут возникать в ИБП, как и в случае любого другого оборудования, но обычно батареи, от которых они питаются, обычно вызывают наибольшее беспокойство. Если аккумулятор ИБП часто отключается и перезаряжается, его емкость будет уменьшаться быстрее, а время его работы резко сокращается. Неудивительно, что аккумуляторы ИБП также могут полностью выйти из строя. ИБП может сообщать по модемам и сетям о возникновении неисправностей, но чаще старые ИБП будут вызывать звуковые сигналы при первой проблеме.

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Защищенное хранилище

Жесткие диски, которые мы используем сегодня и на которые полагаемся в такой высокой степени, стали значительно более надежными за последнее десятилетие или около того. Они, однако, далеко не безошибочны, и, в зависимости от того, в какое исследование вы можете верить, они, кажется, функционируют правильно в течение более длительного периода, в зависимости от ряда факторов. (Отличное мнение об этом можно найти здесь, на The Remarketer.) Если подробные отчеты включены, и привод обеспечивает обратную связь об ошибках, то поврежденные сектора и сбои чтения / записи являются ключом к обнаружению диска в массиве хранения. терпит неудачу. Другая распространенная проблема на серверах, которые используют несколько дисков, подключенных к RAID-контроллеру, заключается в том, что сам контроллер выйдет из строя. К сожалению, иногда жесткие диски просто перестают работать без какого-либо предупреждения - проблема, от которой трудно надежно защититься.

Серверы

Помимо накопителей, встроенных в серверы, и движущихся частей, таких как вышеупомянутые охлаждающие вентиляторы и блоки питания, в аппаратных компонентах сервера также может возникнуть ряд проблем. Отчетность на уровне программного обеспечения (которая обычно относится к BIOS или другой низкоуровневой диагностике аппаратных компонентов) является ключом к выявлению случаев, когда произошел сбой или, что более важно, появляются признаки сбоя. Одной из проблем, которая может быть не сразу очевидна, является проблема материнских плат. Совершенно очевидно, что машины не любят слишком много тепла. Но даже сегодня, если современная печатная плата подвергается быстрой потере тепла - или становится очень горячей или внезапно становится холодной - могут появиться трещины, приводящие к катастрофическим отказам платы. Это проблема, которую следует иметь в виду, особенно если вы перемещаете оборудование между зданиями в пределах окон технического обслуживания неумолимого времени.

MTBF: он тоже может потерпеть неудачу

Как и предсказания MTBF, важно рассчитать уровни приемлемого риска для любого оборудования, на которое должен опираться бизнес. К сожалению, даже при всех статистических заверениях, предоставленных производителями, единственный конкретный способ гарантировать доступность оборудования, которое работает с критически важными системами, - это удвоить его, чтобы включить аварийное переключение по таймауту.

Каждый отдельный аппаратный компонент, используемый на предприятии, состоит из множества различных компонентов, поэтому истинный MTBF далек от тривиального расчета. Очевидно, что крайне важно не основывать будущее бизнеса на этих показателях вероятности, а использовать их в качестве критерия для принятия обоснованных решений в отношении непрерывности бизнеса и процедур аварийного восстановления. В конце концов, сокращение времени простоя с помощью тщательного предварительного планирования может означать разницу между успешным бизнесом и провалом бизнеса.