Если раньше на каждом предприятии группы «ЛУКОЙЛ» было собственное управление по информационным технологиям, которое поддерживало серверы, рабочие станции, свои локальные информационные системы и локальные сети, то теперь все ИТ-активы переданы в ведение ООО «ЛУКОЙЛ-ИНФОРМ». Сейчас в штате этой сервисной ИТ- компании около 7 тыс. человек. «В компании появились новые люди и новые услуги. В перечень наших задач наряду с обслуживанием магистральной сети вошли также разработка, внедрение и поддержка различных информационных систем. При этом перед компанией была поставлена задача повысить надежность, качество и эффективность информационно-технологического обеспечения», - вспоминает начальник отдела мониторинга и сетевого анализа ООО «ЛУКОЙЛ-ИНФОРМ» Павел Прокопенко. А для этого требовалось выстроить соответствующую систему управления. В наследство компании «ЛУКОЙЛ-ИНФОРМ» достался парк самого разнородного оборудования, систем, архитектур и услуг, разные по уровню квалификации и стилям управления группы специалистов. Необходимость в стандартизации и унификации инфраструктуры и услуг стала очевидна, как и необходимость современной единой системы управления инфокоммуникационной инфраструктурой.
Выбор приоритетов
«Руководство компании поставило задачу: видеть буквально все, вплоть до сетевой розетки, куда подключены рабочие станции сотрудников», - комментирует Прокопенко. - Чтобы обеспечить доступность и требуемое качество сети, важно видеть всю сетевую структуру нашего хозяйства: сколько и каких устройств в ней задействовано, какие каналы связи, как они загружены и пр. Без этого невозможно проактивное управление, и остается только в пожарном порядке реагировать на серьезные аварии, когда они уже случились, и тратить много времени и ресурсов на локализацию, определение причины и устранения сбоя».
Cитуация осложнялась еще и тем, что в разных организациях по-разному были построены сети, а персонал - разобщен. Добившись прозрачности сети, затем можно было начать ее оптимизацию с целью повышения эффективности, т.е. при меньших затратах обеспечить больший объем услуг. «Для оптимизации бывает достаточно просто провести ревизию ресурсов, в результате чего могут быть выявлены каналы, за которые платят деньги, а они никак не используются. При этом другой канал может быть в это же время перегружен», - считает Прокопенко.
На момент начала проекта в 2004 году специалисты «ЛУКОЙЛ-ИНФОРМ» использовали для сетевого управления разработанную в компании Castle Rock Computing систему SNMPc Network Manager, которая частично решала поставленные задачи. С ее помощью сетевой инженер мог вручную настроить опрос параметров устройств и оперативно отслеживать их статус. Но для мониторинга загрузки каналов и устройств возможностей этой системы уже не хватало. SNMPc - неплохой инструмент для применения в небольших сетях, но в «ЛУКОЙЛ-ИНФОРМ» требовалась гораздо большая масштабируемость, а также целый ряд отсутствующих в SNMPc функций. Тем более, что задача управления сетью являлась задачей начального этапа проекта. В дальнейшем предстояло обеспечить также управление всей ИКТ-инфраструктурой компаний, входящих в состав группы «ЛУКОЙЛ». Таким образом, встала проблема выбора системы управления.
«Каждая из представленных на рынке промышленных систем в принципе является достойным продуктом, который можно внедрить и получать определенную пользу, - считает Прокопенко. - Но любую из них можно внедрить неудачно. На успех влияет не только выбранное программное обеспечение, но и человеческий фактор, партнеры, терпение руководства, ожидаемые результаты и пр. Мы очень серьезно отнеслись к выбору базового программного обеспечения для системы управления. Изучали, сравнивали, проводили пилотные внедрения нескольких решений». Выбор был сделан в пользу пакета Netcool компании Micromuse, которую в 2006 году купила IBM. Это набор продуктов, получивших известность по всему миру, особенно среди крупных операторов связи. К тому времени уже были примеры внедрения Netcool и в России. Netcool – довольно ‘тяжелый’ продукт, и позволить себе его могут только крупные компании. Среди главных достоинств системы следует отметить ее ‘адаптируемость’ (гибкость, открытость, возможность решать задачи несколькими способами) и ‘интегрируемость’, позволяющую рассчитывать на применение в течение длительного срока.
Успеху проекта в большой степени способствовало то, что к работам по установке и настройке системы была привлечена компания "Энвижн Груп", российский системный интегратор, имеющий наибольший опыт по построению систем управления на базе ПО Micromuse в нашей стране.
Павел Прокопенко: «Руководство компании «Лукойл-Информ» поставило задачу: видеть буквально все, вплоть до сетевой розетки, куда подключены рабочие станции сотрудников»
Этапы проекта
На первом этапе было принято решение создать ядро централизованной системы мониторинга - систему управления событиями. Создание единого поля событий позволяет отслеживать в режиме реального времени из одной точки все, что происходит с ИКТ-инфраструктурой компании. Все подразделения могут работать с одним и тем же набором актуальных данных о состоянии сети передачи данных, транспортных сетей, сети голосовой связи, серверов, приложений, баз данных и т.д. При таком подходе создается централизованное, доступное через Web-интерфейс (а значит, из любой точки сети) отображение состояния всей ИКТ-инфраструктуры компании, а также услуг, оказываемых на ее базе. Все это помогает персоналу службы эксплуатации быстро идентифицировать и приоритизировать сбои в инфраструктуре до того, как они затронут услуги и, соответственно, окажут негативное влияние на бизнес компании.
«Но сеть большая, а поэтому встал вопрос: с чего начинать? В компании решили в первую очередь задействовать московский и пермский регионы. Из пермского филиала исходила инициатива сотрудников, и именно там базировались серверы, на которых была развернута система SAP. Поэтому понятным было желание пораньше взять под контроль этот участок сети», - поясняет Прокопенко.
Это был уже не пилотный, а промышленный проект, но на ограниченном участке. В результате на первом этапе был реализован мониторинг состояния сети, включая информацию о сбоях, мониторинг загрузки сетевых устройств и каналов. И региональный, и глобальный центры управления сетью имеют доступ к централизованной системе мониторинга и оборудованию региональной сети. В компании разработан регламент, который определяет зоны ответственности и порядок взаимодействия регионов и центра. «Идея заключается в том, что глобальный центр управления должен видеть структуру всей сети и статус всех устройств. Но это не означает, что именно московский инженер будет что-то исправлять в регионе, - объясняет Прокопенко. - Система мониторинга предоставляет удобный выход на инструментарий, который используют сетевые инженеры. Непосредственно из списка событий можно активизировать меню, из которого сетевые инженеры выбирают те или иные действия и команды. Автоматическое воздействие на сетевые элементы пока не практикуется, хотя такая возможность в системе Netcool предусмотрена».
Прежде чем переходить к следующему этапу, предстояло решить, как развивать проект: расширять полученный функционал географически или же насыщать новыми возможностями опытную зону, реализуя мониторинг приложений и серверов. В компании пришли к выводу, что важнее тиражировать первую версию системы на все регионы работы «ЛУКОЙЛ-ИНФОРМ», нежели иметь много функций, реализованных «лоскутно».
На втором этапе проекта, который был начат в марте 2007 г., реализована централизованная архитектура системы управления. Все основные серверы системы установлены в московском центре обработки данных, то есть, для доступа к графическому интерфейсу системы мониторинга требуется подключение к серверу, расположенному в Москве. Правда, в некоторых филиалах установлены собственные серверы мониторинга, на которые поступают аварийные сообщения от устройств, расположенных в данном регионе. Они же осуществляют периодический опрос устройств на данной территории. Это позволяет несколько снизить служебный трафик, передаваемый по сети. «Пока я не могу оценить, насколько удачной оказалась такая архитектура системы мониторинга. Это покажет время, - делится своими соображениями Прокопенко. - У нас уже есть положительный опыт работы с системой “Сервис”, созданной на платформе HP Service Desk для реализации процессов управления ИТ-сервисами и построенной по такому же принципу. Так что, думаю, и в работе с централизованной системой мониторинга из регионов проблем не возникнет. От идеи разместить в каждом филиале по копии системы мониторинга мы сразу отказались. Это слишком дорого - не столько из-за цены оборудования и лицензий на ПО, сколько из-за стоимости дальнейшей поддержки такой конфигурации»
Детали внедрения
Как сообщают в компании «Энвижн Груп», ее специалисты в ходе первого этапа проекта внедрили систему мониторинга опорной IP/MPLS-сети группы «ЛУКОЙЛ» - «ЛУКНЕТ», включающей в себя региональные WAN и LAN сети. Эта система мониторинга помогает локализовать аварийные ситуации прежде, чем они приведут к серьезным сбоям. Новые возможности позволяют повысить качество предоставляемых услуг пользователям, а также обеспечивают управление доступностью, производительностью и безопасностью предоставления услуг во всех технологических областях инфраструктуры.
Второй этап проекта, предусматривающий расширение зоны охвата системы на все девять филиалов ООО «ЛУКОЙЛ-ИНФОРМ», был завершен в конце 2007 г. В его реализации принимали активное участие специалисты московского отдела мониторинга и сетевого анализа «ЛУКОЙЛ-ИНФОРМ». В каждом филиале был назначен ответственный за внедрение системы мониторинга. «Первым компонентом Netcool, который мы использовали, был модуль управления событиями Omnibus, позволяющий консолидировать все аварийные сообщения, - вспоминает Прокопенко. - Затем был задействован продукт Precision for IP (теперь он называется IBM Tivoli Network Manager). Сильной стороной этого решения является функциональность Network Devices and Topology Discovery, которая обеспечивает корректное автоматическое обнаружение устройств и раскрытие топологии сети на разных уровнях, фактически, формирование модели сети. Это чрезвычайно полезно как для целей инвентаризации, так и для автоматизации самой системы мониторинга». Разработанная один раз политика мониторинга определенного класса оборудования применяется автоматически для всех таких устройств, которые были обнаружены в сети в ходе периодически выполняемого процесса обнаружения. Кроме того, любая собранная при этом информация может использоваться для более точной обработки событий в модуле Omnibus. Еще одна интересная функция системы Tivoli Network Manager - выявление первоисточника проблемы (Root Cause Analysis) - в ряде случаев позволяет весьма существенно сократить количество аварийных сообщений, передаваемых на обработку операторам центра управления сетью, конечно, при условии, что получена корректная модель сети.
По мнению Прокопенко, задача получения такой модели практически не решаема, поскольку системы управления и мониторинга просто не успевают за появлением новых технологий. В «ЛУКОЙЛ-ИНФОРМ» считают, что уровень ее поддержки в системе Tivoli Network Manager наиболее высокий по сравнению с другими продуктами аналогичной функциональности. Чтобы добиться корректной работы системы, специалистам «ЛУКОЙЛ-ИНФОРМ» пришлось приложить немало усилий, в том числе самим пройти обучение на курсах различного уровня и ‘учить’ систему раскрывать топологию в тех ситуациях, когда не срабатывали штатные механизмы. Сейчас, если появляется устройство или участок сети, которые система не может распознать, специалисты отдела мониторинга и сетевого анализа в состоянии разработать специальную программу-агента для внедрения недостающей информации в модель топологии сети. При разрешении подобных проблем также идет процесс стандартизации телекоммуникационных узлов сети.
В ходе второго этапа проекта возникли определенные нюансы, которые не проявились на первом этапе. В частности, пришлось решать проблему объектов, которые работают не круглосуточно. Например, есть площадки, где персонал обесточивает все оборудование перед уходом, что приводит к появлению множества «лишних» аварийных сообщений, на обработку которых операторам приходится тратить драгоценное время. Одним из возможных решений является ввод дополнительного атрибута в базе устройств CMDB, который определяет график обслуживания данного оборудования. По словам Прокопенко, большинство проблем возникали из-за отсутствия инвентарной базы данных, поэтому на третьем этапе предстоит интеграция с подобной базой, которая сейчас формируется в рамках другого проекта. Извлечение из нее недостающей информации позволит расширить функционал системы мониторинга.
При реализации второго этапа все же не удалось удержаться в обозначенных в начале проекта рамках. Помимо расширения зоны охвата на филиалы компании «ЛУКОЙЛ-ИНФОРМ» пришлось добавить и новый функционал. «Поскольку в Москве уже построен распределенный центр обработки данных, в котором установлено новое оборудование - серверы, системы хранения данных и т.д., мы решили как можно быстрее включить это оборудование в систему управления сбоями. Для этого специалисты компании ‘Энвижн Груп’ разработали дополнительный набор правил для системы Netcool Omnibus. Никакого внедрения нового ПО не потребовалось», - делится удачей Прокопенко. Наряду с этим в системе реализованы измерения доступности и качества передачи данных по сети на базе технологии Cisco IP SLA и модуля Netcool Internet Service Monitor for SAA.
В целом, в процессе внедрения решение Netcool подтвердило заявленные качества: масштабируемость, гибкость, способность обнаруживать и распознавать очень большие сети, а также открытость и адаптируемость.
На третьем этапе проекта предстоит расширить охват системы мониторинга на другие объекты ИКТ-инфраструктуры «ЛУКОЙЛ-ИНФОРМ», в частности, реализовать мониторинг операционных систем, СУБД и приложений на серверных платформах от Sun и Microsoft, а также выполнить интеграцию системы мониторинга с системой «Сервис».

