Online-курс “Основы APM”: Советы по улучшению производительности приложений

ALG DevOps Team17.11.2013683 просм.

Взгляд на управление производительностью и мониторинг с точки зрения IT Operations

Чтобы получить ответ на данный вопрос, было решено отойти от стереотипов подачи материала. И сегодня с нами делится своим опытом парень из IT Operations. Ну, не совсем простой парень, конечно, а СОО (Chief Operating Officer) крупной западной компании. Далее будет звучать его прямая речь.

1. Получайте правильные данные

Мой приятель Фрэнк однажды очень точно объяснил головную боль, с которой сталкивается большинство команд IT Operations: «Досадная правда заключается в том, что большинство людей просто не имеют необходимой информации».

Как типичный парень из IT Ops , я трачу часы времени, работая с множеством инструментов. Администратор БД использует один инструмент, сетевой администратор – другой, а ребята, следящие за серверами, – третий. И когда что-то идет не так, все эти индивидуальные инструменты могут показывать, что все в порядке!

У нас может быть полностью зеленый дашборд, и при этом «алерты», показывающие 100%-ную загрузку CPU. Стандартные средства мониторинга будут показывать, что все “ОК” – но верить этому нельзя. Необходимо продолжать идти вперед, исследовать и продолжать изучать среду, пока мы сами не убедимся, что все в порядке.

Ключ к избавлению от этой головной боли в том, чтобы найти правильный инструмент, который предоставит необходимые данные для подтверждения производительности критически важных бизнес-приложений.

2. Облегчайте жизнь администраторам

Как СОО (Chief Operating Officer), я возглавляю группу невероятно трудолюбивых и талантливых экспертов, которые отлично разбираются во многих вещах. Проблемы и неожиданности, с которыми мы сталкиваемся у наших клиентов, порой кажутся непреодолимыми. Но мы всегда находим выход.

Ключевой момент в том, что мы постоянно пытаемся жонглировать несколькими проблемами, и у нас просто нет времени на поиск или упреждение появления новых. Что нужно Ops парням, так это инструмент, который может автоматически определять взаимосвязи в среде и предоставлять правдивые, сиюминутные измерения уровня производительности сервисов. Это дает возможность IT Ops в реальном времени анализировать производительность и существенно сокращать количество проблем.

3. Знайте «нормальное» поведение приложений

Ключевые метрики для Маркетинга и Operations могут отличаться, но чтобы поддерживать и те и другие на должном уровне, необходимо понимать, как собственно выглядят стандартные показатели операций. Является ли отклик в две секунды приемлемым для клиентов? Как насчет 2.1? Как вы можете ответить на такие вопросы, если не мониторите это постоянно?

Для парней из IT Ops все еще более строго. У нас есть четкие SLA, которые необходимо выдерживать. Ops должны точно знать, когда 2%, 10% или – о ужас – 20% транзакций не отвечают требованиям, чтобы из-за низкой производительности заблаговременно отправить письма в стиле «Вы уж нас простите», а не дожидаться, пока кто-нибудь позвонит.

Необходимо собирать данные о нормальной работе своих приложений и хранить историю любой их активности. На основе этих данных уже можно проактивно управлять уровнями предоставляемых услуг, чтобы избежать кошмарных сбоев в работе (как правило, в выходные дни). Ну а если что-то все-таки произошло, то используйте эти детализированные исторические данные, чтобы быстро определить, что именно изменилось. Наличие исторического контекста может определить разницу между решением проблемы в считанные минуты или же дни.

4. Будьте одержимы скоростью загрузки страниц

Мы продаем разрабатываемое нами ПО через интернет. После того как мы проделали работу по улучшению производительности наших страниц, количество скачиваний предлагаемых нами программных продуктов увеличилось на 12%. Скорость критически важна! Сегодня, когда у всех есть телефоны, которые «летают», люди ожидают видеть такое же быстрое время отклика на каждом сайте или приложении.

Я верю в то, что мы – ребята из IT Ops – должны быть просто одержимы пониманием всего, что происходит. Время отклика критических транзакций никогда не бывает достаточно быстрым! Вы никогда не сможете переусердствовать в измерении KPI и SLA . И, наконец, я пока не слышал, чтобы кого-то уволили за то, что он сделал хороший сайт еще более лучшим.

Растущая сложность IT среды и количество изменений, которые производятся каждый день, заставляют обращать внимание на вещи, которые делают жизнь Ops профессионалов проще. Если вы собираете правильные данные, облегчаете жизнь Ops команде, знаете нормальное поведение программ и печетесь о ваших KPI и SLA, вы всегда будете двигаться в правильном направлении.

Команда ALG DevOps Team будет благодарна за Ваши ответы на следующие вопросы:

* 1. Будет ли полезен материал этого урока в Вашей текущей работе?

<скорее нет скорее да>

* 2. Нашли ли Вы этот урок познавательным и интересным?

<скорее нет скорее да>

* 3. Каков, по Вашему мнению, характер предоставленной информации?

<технический управленческий>

Твитнуть