мистика и Juniper

Posted: 2016-05-29 in IT
Метки:

Ситуация :


May 29 11:00:03 ex4200-24f-sw1 chassism[1332]: AN_BYPASS Activated for port ge-0/0/2
May 29 11:00:03 ex4200-24f-sw1 chassism[1332]: AN_BYPASS: Link down, Restored config on bypass activated port ge-0/0/2
May 29 11:00:03 ex4200-24f-sw1 chassism[1332]: AN_BYPASS : Port ge-0/0/2 Saved time -75044563
May 29 11:00:04 ex4200-24f-sw1 chassism[1332]: AN_BYPASS : Port ge-0/0/2 Current -75043561 Saved time -75044563

Гуглинг даёт пару невнятных ссылок на англоязычные форумы. У нас нет ни LACP на этом порту, ни стекированных железок.

Симптомы — один из оптических линков лежит в дауне (Hardware Down), других флагов ошибок в show interface не фиксируется, после замены оптического модуля / перетыкания в соседний порт работает несколько часов и снова падает.

Первая идея: проверить синхронизацию времени. У нас время как раз было плохо синхронизировано, мантры deactivate / activate ntp (с последующими коммитами) в секции #system не помогли, делаем так:

> start shell
$ su
# which ntpdate
# /usr/sbin/ntpdate -u pool.ntp.org

После синхронизации времени линк мгновенно поднялся. Казалось бы, вот оно, решение.

Если прописано несколько NTP-серверов в #system ntp, то стоит проверить, что с каждого можно получить время командой ntpdate, и недоступные NTP-серверы либо поднять, либо удалить из конфига.

Помним главную заповедь админа:
«[После этого] ещё не означает [из-за этого]».

Но самый прикол в том, что хоть восстановление синхронизации времени и решило проблему, но снова лишь временно, пусть и на существенно больший промежуток времени.

А настоящей причиной проблемы оказалось незначительное повреждение оптики в кабельном коллекторе, после того, как там что-то пошурудила другая организация. Причём выявить такое помогло знание о проводимых работах, интуиция и рефлектометр.

Реклама

Обсуждение закрыто.