А температура продолжала расти…
История эта произошла довольно давно — году, этак, в 2011-ом.
В рамках нашего проекта server [admin] мы администрировали небольшую, но очень гордую веб-студию. И, как полагается уважающей себя студии — имелись у них сервера в одном ЦОД (центр обработки данных). ЦОД был некрупный, были там свои проблемы с инфраструктурой, но об этом мы узнали позже…
Сижу, значит, примус починяю настраиваю какой-то дохлый серверок для этой самой студии, как вдруг — сервер уходит в оффлайн (выключается), а спустя пару минут — снова доступен. И так несколько раз подряд. Ну, думаю — беда с сервером. Собирали его, к слову представители этого самого ДЦ по нашему заказу.
Смотрю логи, запускаю утилиты мониторинга и вижу, что температура CPU ( процессора ) и чипсета материнской платы сервера довольно велика и продолжает расти, хотя нагрузки, как таковой — нет. Естественно, температура доходит до критической отметки и сервер перезагружается.
Сначала подумал — установили радиаторы охлаждения с перекосом, или термопасту не намазали — криворукие засранцы, но все оказалось значительно интереснее 🙂
Пишу письмо в саппорт:
Многоуважаемые саппорт-инженеры хостера такого-то. Соблаговолите проверить сервер такой-то — вероятно, проблемы с охлаждением. Ожидаю. Спасибо. father
Сотрудники саппорта отвечают довольно оперативно:
«Многоуважаемый %username%. С охлаждением Вашего сервера все в порядке и вообще он работает в штатном режиме. А завышенные температуры — это проблема с нашей стороны. Дело в том, что у нас в машинном зале пожар — горит стойка, соседняя с Вашей….»
Ну и далее — стандартный текст о приложении всех возможных усилий по ликвидации сего безобразия и заверения о наличии бекапов всего и вся.
¯\_(ツ)_/¯
На удивление — сервер выжил и, к вечеру того же дня, нормальное функционирование было восстановлено. Мы так и не узнали ни о причинах пожара ни о его последствиях. Мы так и не узнали — каким образом в горящем машинном зале остались доступны серверы клиентов. Нас заверили, что они устранили проблему, приведшую к возникновению аварии. Однако мы все равно настояли на переезде серверов веб-студии к более надежному хостеру, хоть и дороже.
А для себя в тот день мы решили, что запустим для наших клиентов услугу бекапа для критически важных данных.