* [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
@ 2004-07-04 3:48 Ivan Adzhubey
2004-07-04 13:17 ` Sergey Vlasov
0 siblings, 1 reply; 8+ messages in thread
From: Ivan Adzhubey @ 2004-07-04 3:48 UTC (permalink / raw)
To: hardware
Доброго времени суток всем!
Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не сработало),
судя по /proc/interrupts NMI запустились, но вот только что опять нода умерла
и даже не думает перегружаться. Насколько вообще эффективен этот kernel NMI
handler? Или без аппаратного watchdog все равно не обойтись? Если у кого-то
есть опыт, поделитесь пожалуйста.
--
Иван
^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
2004-07-04 3:48 [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? Ivan Adzhubey
@ 2004-07-04 13:17 ` Sergey Vlasov
2004-07-05 0:56 ` Ivan Adzhubey
0 siblings, 1 reply; 8+ messages in thread
From: Sergey Vlasov @ 2004-07-04 13:17 UTC (permalink / raw)
To: hardware
[-- Attachment #1: Type: text/plain, Size: 628 bytes --]
On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote:
> Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не сработало),
> судя по /proc/interrupts NMI запустились, но вот только что опять нода умерла
> и даже не думает перегружаться. Насколько вообще эффективен этот kernel NMI
> handler? Или без аппаратного watchdog все равно не обойтись? Если у кого-то
> есть опыт, поделитесь пожалуйста.
nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными
прерываниями. Можно к нему добавить ещё softdog; впрочем, в случае
действительно аппаратного зависания это всё равно не поможет.
[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]
^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
2004-07-04 13:17 ` Sergey Vlasov
@ 2004-07-05 0:56 ` Ivan Adzhubey
2004-07-05 10:24 ` Sergey Vlasov
0 siblings, 1 reply; 8+ messages in thread
From: Ivan Adzhubey @ 2004-07-05 0:56 UTC (permalink / raw)
To: hardware
On Sunday 04 July 2004 09:17 am, Sergey Vlasov wrote:
> On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote:
> > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не
> > сработало), судя по /proc/interrupts NMI запустились, но вот только что
> > опять нода умерла и даже не думает перегружаться. Насколько вообще
> > эффективен этот kernel NMI handler? Или без аппаратного watchdog все
> > равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста.
>
> nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными
> прерываниями. Можно к нему добавить ещё softdog; впрочем, в случае
> действительно аппаратного зависания это всё равно не поможет.
Это все так, в теории, но вот я неполенился сходить на работу посмотреть на
умершую ноду. На консоли написано: NMI Watchdog detected lockup on CPU0,
потом идет дамп регистров и в конце: Shutting up console... И все, висим. То
есть watchdog вроде бы сработал, но почему машину не перегрузил?? В
параметрах загрузки ядра стоит: panic=30, то есть должны через тридцать
секунд после oops'а перегрузиться автоматом. Фиг вам. И как это понимать?
--
Иван
^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
2004-07-05 0:56 ` Ivan Adzhubey
@ 2004-07-05 10:24 ` Sergey Vlasov
2004-07-05 17:39 ` Ivan Adzhubey
0 siblings, 1 reply; 8+ messages in thread
From: Sergey Vlasov @ 2004-07-05 10:24 UTC (permalink / raw)
To: hardware
[-- Attachment #1: Type: text/plain, Size: 1699 bytes --]
On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote:
> On Sunday 04 July 2004 09:17 am, Sergey Vlasov wrote:
> > On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote:
> > > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не
> > > сработало), судя по /proc/interrupts NMI запустились, но вот только что
> > > опять нода умерла и даже не думает перегружаться. Насколько вообще
> > > эффективен этот kernel NMI handler? Или без аппаратного watchdog все
> > > равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста.
> >
> > nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными
> > прерываниями. Можно к нему добавить ещё softdog; впрочем, в случае
> > действительно аппаратного зависания это всё равно не поможет.
>
> Это все так, в теории, но вот я неполенился сходить на работу посмотреть на
> умершую ноду. На консоли написано: NMI Watchdog detected lockup on CPU0,
> потом идет дамп регистров и в конце: Shutting up console... И все, висим. То
> есть watchdog вроде бы сработал, но почему машину не перегрузил?? В
> параметрах загрузки ядра стоит: panic=30, то есть должны через тридцать
> секунд после oops'а перегрузиться автоматом. Фиг вам. И как это понимать?
Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло
в контексте какого-либо процесса, убивается только этот процесс. Впрочем,
убивается он достаточно грубо, так что система всё равно вряд ли продолжит
работу после этого.
nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в
результате его срабатывания backtrace нужно смотреть, на чём именно
повисло (как правило, это какой-то spinlock), и по этим данным искать
ошибку.
[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]
^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
2004-07-05 10:24 ` Sergey Vlasov
@ 2004-07-05 17:39 ` Ivan Adzhubey
2004-07-07 6:11 ` Michael Shigorin
0 siblings, 1 reply; 8+ messages in thread
From: Ivan Adzhubey @ 2004-07-05 17:39 UTC (permalink / raw)
To: hardware
On Monday 05 July 2004 06:24 am, Sergey Vlasov wrote:
> On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote:
> > Это все так, в теории, но вот я неполенился сходить на работу посмотреть
> > на умершую ноду. На консоли написано: NMI Watchdog detected lockup on
> > CPU0, потом идет дамп регистров и в конце: Shutting up console... И все,
> > висим. То есть watchdog вроде бы сработал, но почему машину не
> > перегрузил?? В параметрах загрузки ядра стоит: panic=30, то есть должны
> > через тридцать секунд после oops'а перегрузиться автоматом. Фиг вам. И
> > как это понимать?
>
> Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло
> в контексте какого-либо процесса, убивается только этот процесс. Впрочем,
> убивается он достаточно грубо, так что система всё равно вряд ли продолжит
> работу после этого.
Угу, я уже сам слазил в исходники и посмотрел. А документация на сайте RedHat
врет...
> nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в
> результате его срабатывания backtrace нужно смотреть, на чём именно
> повисло (как правило, это какой-то spinlock), и по этим данным искать
> ошибку.
Значит попробуем softdog. Но как я понимаю, к модулю кернеля нужен еще и
userspace daemon, а в Сизифе ничего такого нет. Да и вообще, кроме старого
дебиановского проекта watchdog я ничего в сети не нашел, как не старался. Не
ставить же HA-linux только ради этого демона. Грустная картина. Неужто ни у
кого серверы не виснут?
--
Иван
^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
2004-07-05 17:39 ` Ivan Adzhubey
@ 2004-07-07 6:11 ` Michael Shigorin
2004-07-07 6:33 ` Ivan Adzhubey
0 siblings, 1 reply; 8+ messages in thread
From: Michael Shigorin @ 2004-07-07 6:11 UTC (permalink / raw)
To: hardware
On Mon, Jul 05, 2004 at 01:39:14PM -0400, Ivan Adzhubey wrote:
> Грустная картина. Неужто ни у кого серверы не виснут?
Серверы работают. Знакомый народ с большими парками пользует
разнообразные аппаратные штуки; в частности, их есть на
inpc.kiev.ua.
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
2004-07-07 6:11 ` Michael Shigorin
@ 2004-07-07 6:33 ` Ivan Adzhubey
2004-07-07 8:09 ` Michael Shigorin
0 siblings, 1 reply; 8+ messages in thread
From: Ivan Adzhubey @ 2004-07-07 6:33 UTC (permalink / raw)
To: hardware
On Wednesday 07 July 2004 02:11 am, Michael Shigorin wrote:
> On Mon, Jul 05, 2004 at 01:39:14PM -0400, Ivan Adzhubey wrote:
> > Грустная картина. Неужто ни у кого серверы не виснут?
>
> Серверы работают. Знакомый народ с большими парками пользует
> разнообразные аппаратные штуки; в частности, их есть на
> inpc.kiev.ua.
А каким софтом пользуетесь? Мне бы найти хорошего демона, а с железками у нас
на массачусеттсене проблем нету. Не то что бы уж очень часто виснет, но у
меня под крылом несколько серверов в MIT и в Гарварде и мотаться по городу
бывает напряжно. Попробую собрать этот дебиановский watchdog, вот только
смущает, что проект в заброшеном состоянии.
Да и в Сизифе хорошо было бы иметь хотя бы что-то на тему high availability.
--
Иван
^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
2004-07-07 6:33 ` Ivan Adzhubey
@ 2004-07-07 8:09 ` Michael Shigorin
0 siblings, 0 replies; 8+ messages in thread
From: Michael Shigorin @ 2004-07-07 8:09 UTC (permalink / raw)
To: hardware
On Wed, Jul 07, 2004 at 02:33:14AM -0400, Ivan Adzhubey wrote:
> А каким софтом пользуетесь?
Так я ж говорю -- не пользуюсь, нет настолько критичного
[сейчас]. А когда было -- работало себе, по форс-мажорам на
площадке даунтайм только был, по сути.
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 8+ messages in thread
end of thread, other threads:[~2004-07-07 8:09 UTC | newest]
Thread overview: 8+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2004-07-04 3:48 [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? Ivan Adzhubey
2004-07-04 13:17 ` Sergey Vlasov
2004-07-05 0:56 ` Ivan Adzhubey
2004-07-05 10:24 ` Sergey Vlasov
2004-07-05 17:39 ` Ivan Adzhubey
2004-07-07 6:11 ` Michael Shigorin
2004-07-07 6:33 ` Ivan Adzhubey
2004-07-07 8:09 ` Michael Shigorin
ALT Linux hardware support
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/hardware/0 hardware/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 hardware hardware/ http://lore.altlinux.org/hardware \
hardware@altlinux.ru hardware@lists.altlinux.org hardware@lists.altlinux.ru hardware@lists.altlinux.com hardware@altlinux.org
public-inbox-index hardware
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.hardware
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git