Блог
Инженерия Автор

Мониторинг: хуевый и охуенный

07.06.2022
Про сбор и обработку метрик написано очень много статей и книг. В этой статье я расскажу о двух других составляющих мониторинга: сообщение об авариях и отображение информации для диагностики. ..

Суки

29.01.2022
Системы управления конфигурацией все еще используются для управления серверами. В тексте для краткости я буду называть их суками. Большинство из них реализует парадигму “инфраструктура как код” (IaC). Мне довелось поработать аж с тремя суками: ansible, puppet и chef и все они по-своему ужасны. ..

Bcache: в прод!

21.12.2021
Опыт использования bcache в проде. О багах, тормозах и метриках...

Мониторинг Ceph

18.10.2021
Как не пропустить падения и взлёты в жизни кластеров ceph с помощью prometheus или victoriametrics. Теория и практика мониторинга распределенного хранилища...

Метрики лгут: libvirt

26.08.2021
Между неправильными измерениями и неправильными ожиданиями тонкая грань. Люди обвиняют метрики в том, что они не показывают того, чего от них ждут. В этой статье я на практике покажу какие метрики либвирта часто понимают неправильно и почему это происходит. ..

Source Code Deep Dive

30.06.2021
Инженерам приходится читать исходный код. Кому-то чаще, кому-то реже, но в конце-концов приходится всем. Недостаточно знать синтаксис языка, нужно уметь быстро найти интересующую часть кода и понять пути выполнения программы. ..

Its Steal Time!

08.04.2021
После того, как администратор узнает про steal time, он может по-настоящему предъявить своему облачному провайдеру за то, что тот крадет процессорное время его виртуалки! В многочисленных статьях на эту тему написано, что эта метрика отражает процент времени, который виртуалка недополучила от гипервизора, но что всё это значит? ..

eBPF-exporter и ошибки памяти станут метрикой

24.02.2021
Ошибки железа - популярная тема, когда у вас несколько сотен серверов. Если с дисками всё в целом понятно: они либо вылетают, либо лагают, либо инкрементят счетчики S.M.A.R.T., то с памятью, например, интересней. ..

Производительность распределенного хранилища: препродакшен тесты

15.01.2021
У вас есть свежее распределенное хранилище. Кластер уже установлен и готов к вводу в продакшен. Самое время протестировать производительность. Такое тестирование проводится, чтобы понять скорость работы хранилки на практике, оценить адекватность инсталляции и понять её максимальную производительность на старте. В этой статье я поделюсь методологией препродакшен тестирования. ..

Storage Performance Testing: Virtual Machine Disk

01.08.2020
Performance benchmarking is a huge and complex topic and we face different aspects of it from time to time. One relatively simple and probably common question is how to compare disks in the cloud? What benchmarks do we need to run and what parameters to use? When we want to compare different disk types or different cloud providers the testing process should be reproducible, so it is possible to save the results for future use. ..