Блог
Инженерия Автор

Мониторинг: хуевый и охуенный

07.06.2022
Про сбор и обработку метрик написано очень много статей и книг. В этой статье я расскажу о двух других составляющих мониторинга: сообщение об авариях и отображение информации для диагностики...

Суки

29.01.2022
Системы управления конфигурацией все еще используются для управления серверами. В тексте для краткости я буду называть их суками. Большинство из них реализует парадигму “инфраструктура как код” (IaC). Мне довелось поработать аж с тремя суками: ansible, puppet и chef и все они по-своему ужасны...

Bcache: в прод!

21.12.2021
Опыт использования bcache в проде. О багах, тормозах и метриках...

Мониторинг Ceph

18.10.2021
Как не пропустить падения и взлёты в жизни кластеров ceph с помощью prometheus или victoriametrics. Теория и практика мониторинга распределенного хранилища...

Метрики лгут: libvirt

26.08.2021
Между неправильными измерениями и неправильными ожиданиями тонкая грань. Люди обвиняют метрики в том, что они не показывают того, чего от них ждут. В этой статье я на практике покажу какие метрики либвирта часто понимают неправильно и почему это происходит...

Source Code Deep Dive

30.06.2021
Инженерам приходится читать исходный код. Кому-то чаще, кому-то реже, но в конце-концов приходится всем. Недостаточно знать синтаксис языка, нужно уметь быстро найти интересующую часть кода и понять пути выполнения программы...

Its Steal Time!

08.04.2021
После того, как администратор узнает про steal time, он может по-настоящему предъявить своему облачному провайдеру за то, что тот крадет процессорное время его виртуалки! В многочисленных статьях на эту тему написано, что эта метрика отражает процент времени, который виртуалка недополучила от гипервизора, но что всё это значит?..

eBPF-exporter и ошибки памяти станут метрикой

24.02.2021
Ошибки железа - популярная тема, когда у вас несколько сотен серверов. Если с дисками всё в целом понятно: они либо вылетают, либо лагают, либо инкрементят счетчики S.M.A.R.T., то с памятью, например, интересней...

Производительность распределенного хранилища: препродакшен тесты

15.01.2021
У вас есть свежее распределенное хранилище. Кластер уже установлен и готов к вводу в продакшен. Самое время протестировать производительность. Такое тестирование проводится, чтобы понять скорость работы хранилки на практике, оценить адекватность инсталляции и понять её максимальную производительность на старте...

Storage Performance Testing: Virtual Machine Disk

01.08.2020
Performance benchmarking is a huge and complex topic and we face different aspects of it from time to time. One relatively simple and probably common question is how to compare disks in the cloud?..