ALT Linux hardware support
 help / color / mirror / Atom feed
* [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
@ 2004-07-04  3:48 Ivan Adzhubey
  2004-07-04 13:17 ` Sergey Vlasov
  0 siblings, 1 reply; 8+ messages in thread
From: Ivan Adzhubey @ 2004-07-04  3:48 UTC (permalink / raw)
  To: hardware

Доброго времени суток всем!

Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не сработало), 
судя по /proc/interrupts NMI запустились, но вот только что опять нода умерла 
и даже не думает перегружаться. Насколько вообще эффективен этот kernel NMI 
handler? Или без аппаратного watchdog все равно не обойтись? Если у кого-то 
есть опыт, поделитесь пожалуйста.

-- 
Иван


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
  2004-07-04  3:48 [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? Ivan Adzhubey
@ 2004-07-04 13:17 ` Sergey Vlasov
  2004-07-05  0:56   ` Ivan Adzhubey
  0 siblings, 1 reply; 8+ messages in thread
From: Sergey Vlasov @ 2004-07-04 13:17 UTC (permalink / raw)
  To: hardware

[-- Attachment #1: Type: text/plain, Size: 628 bytes --]

On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote:
> Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не сработало), 
> судя по /proc/interrupts NMI запустились, но вот только что опять нода умерла 
> и даже не думает перегружаться. Насколько вообще эффективен этот kernel NMI 
> handler? Или без аппаратного watchdog все равно не обойтись? Если у кого-то 
> есть опыт, поделитесь пожалуйста.

nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными
прерываниями.  Можно к нему добавить ещё softdog; впрочем, в случае
действительно аппаратного зависания это всё равно не поможет.

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
  2004-07-04 13:17 ` Sergey Vlasov
@ 2004-07-05  0:56   ` Ivan Adzhubey
  2004-07-05 10:24     ` Sergey Vlasov
  0 siblings, 1 reply; 8+ messages in thread
From: Ivan Adzhubey @ 2004-07-05  0:56 UTC (permalink / raw)
  To: hardware

On Sunday 04 July 2004 09:17 am, Sergey Vlasov wrote:
> On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote:
> > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не
> > сработало), судя по /proc/interrupts NMI запустились, но вот только что
> > опять нода умерла и даже не думает перегружаться. Насколько вообще
> > эффективен этот kernel NMI handler? Или без аппаратного watchdog все
> > равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста.
>
> nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными
> прерываниями.  Можно к нему добавить ещё softdog; впрочем, в случае
> действительно аппаратного зависания это всё равно не поможет.

Это все так, в теории, но вот я неполенился сходить на работу посмотреть на 
умершую ноду. На консоли написано: NMI Watchdog detected lockup on CPU0, 
потом идет дамп регистров и в конце: Shutting up console... И все, висим. То 
есть watchdog вроде бы сработал, но почему машину не перегрузил?? В 
параметрах загрузки ядра стоит: panic=30, то есть должны через тридцать 
секунд после oops'а перегрузиться автоматом. Фиг вам. И как это понимать?

-- 
Иван


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
  2004-07-05  0:56   ` Ivan Adzhubey
@ 2004-07-05 10:24     ` Sergey Vlasov
  2004-07-05 17:39       ` Ivan Adzhubey
  0 siblings, 1 reply; 8+ messages in thread
From: Sergey Vlasov @ 2004-07-05 10:24 UTC (permalink / raw)
  To: hardware

[-- Attachment #1: Type: text/plain, Size: 1699 bytes --]

On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote:
> On Sunday 04 July 2004 09:17 am, Sergey Vlasov wrote:
> > On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote:
> > > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не
> > > сработало), судя по /proc/interrupts NMI запустились, но вот только что
> > > опять нода умерла и даже не думает перегружаться. Насколько вообще
> > > эффективен этот kernel NMI handler? Или без аппаратного watchdog все
> > > равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста.
> >
> > nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными
> > прерываниями.  Можно к нему добавить ещё softdog; впрочем, в случае
> > действительно аппаратного зависания это всё равно не поможет.
> 
> Это все так, в теории, но вот я неполенился сходить на работу посмотреть на 
> умершую ноду. На консоли написано: NMI Watchdog detected lockup on CPU0, 
> потом идет дамп регистров и в конце: Shutting up console... И все, висим. То 
> есть watchdog вроде бы сработал, но почему машину не перегрузил?? В 
> параметрах загрузки ядра стоит: panic=30, то есть должны через тридцать 
> секунд после oops'а перегрузиться автоматом. Фиг вам. И как это понимать?

Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло
в контексте какого-либо процесса, убивается только этот процесс.  Впрочем,
убивается он достаточно грубо, так что система всё равно вряд ли продолжит
работу после этого.

nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в
результате его срабатывания backtrace нужно смотреть, на чём именно
повисло (как правило, это какой-то spinlock), и по этим данным искать
ошибку.

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
  2004-07-05 10:24     ` Sergey Vlasov
@ 2004-07-05 17:39       ` Ivan Adzhubey
  2004-07-07  6:11         ` Michael Shigorin
  0 siblings, 1 reply; 8+ messages in thread
From: Ivan Adzhubey @ 2004-07-05 17:39 UTC (permalink / raw)
  To: hardware

On Monday 05 July 2004 06:24 am, Sergey Vlasov wrote:
> On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote:
> > Это все так, в теории, но вот я неполенился сходить на работу посмотреть
> > на умершую ноду. На консоли написано: NMI Watchdog detected lockup on
> > CPU0, потом идет дамп регистров и в конце: Shutting up console... И все,
> > висим. То есть watchdog вроде бы сработал, но почему машину не
> > перегрузил?? В параметрах загрузки ядра стоит: panic=30, то есть должны
> > через тридцать секунд после oops'а перегрузиться автоматом. Фиг вам. И
> > как это понимать?
>
> Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло
> в контексте какого-либо процесса, убивается только этот процесс.  Впрочем,
> убивается он достаточно грубо, так что система всё равно вряд ли продолжит
> работу после этого.

Угу, я уже сам слазил в исходники и посмотрел. А документация на сайте RedHat 
врет...

> nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в
> результате его срабатывания backtrace нужно смотреть, на чём именно
> повисло (как правило, это какой-то spinlock), и по этим данным искать
> ошибку.

Значит попробуем softdog. Но как я понимаю, к модулю кернеля нужен еще и 
userspace daemon, а в Сизифе ничего такого нет. Да и вообще, кроме старого 
дебиановского проекта watchdog я ничего в сети не нашел, как не старался. Не 
ставить же HA-linux только ради этого демона. Грустная картина. Неужто ни у 
кого серверы не виснут?

-- 
Иван


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
  2004-07-05 17:39       ` Ivan Adzhubey
@ 2004-07-07  6:11         ` Michael Shigorin
  2004-07-07  6:33           ` Ivan Adzhubey
  0 siblings, 1 reply; 8+ messages in thread
From: Michael Shigorin @ 2004-07-07  6:11 UTC (permalink / raw)
  To: hardware

On Mon, Jul 05, 2004 at 01:39:14PM -0400, Ivan Adzhubey wrote:
> Грустная картина. Неужто ни у кого серверы не виснут?

Серверы работают.  Знакомый народ с большими парками пользует
разнообразные аппаратные штуки; в частности, их есть на
inpc.kiev.ua.

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
  2004-07-07  6:11         ` Michael Shigorin
@ 2004-07-07  6:33           ` Ivan Adzhubey
  2004-07-07  8:09             ` Michael Shigorin
  0 siblings, 1 reply; 8+ messages in thread
From: Ivan Adzhubey @ 2004-07-07  6:33 UTC (permalink / raw)
  To: hardware

On Wednesday 07 July 2004 02:11 am, Michael Shigorin wrote:
> On Mon, Jul 05, 2004 at 01:39:14PM -0400, Ivan Adzhubey wrote:
> > Грустная картина. Неужто ни у кого серверы не виснут?
>
> Серверы работают.  Знакомый народ с большими парками пользует
> разнообразные аппаратные штуки; в частности, их есть на
> inpc.kiev.ua.

А каким софтом пользуетесь? Мне бы найти хорошего демона, а с железками у нас 
на массачусеттсене проблем нету. Не то что бы уж очень часто виснет, но у 
меня под крылом несколько серверов в MIT и в Гарварде и мотаться по городу 
бывает напряжно. Попробую собрать этот дебиановский watchdog, вот только 
смущает, что проект в заброшеном состоянии.

Да и в Сизифе хорошо было бы иметь хотя бы что-то на тему high availability.

-- 
Иван



^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
  2004-07-07  6:33           ` Ivan Adzhubey
@ 2004-07-07  8:09             ` Michael Shigorin
  0 siblings, 0 replies; 8+ messages in thread
From: Michael Shigorin @ 2004-07-07  8:09 UTC (permalink / raw)
  To: hardware

On Wed, Jul 07, 2004 at 02:33:14AM -0400, Ivan Adzhubey wrote:
> А каким софтом пользуетесь?

Так я ж говорю -- не пользуюсь, нет настолько критичного
[сейчас].  А когда было -- работало себе, по форс-мажорам на
площадке даунтайм только был, по сути.

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 8+ messages in thread

end of thread, other threads:[~2004-07-07  8:09 UTC | newest]

Thread overview: 8+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2004-07-04  3:48 [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? Ivan Adzhubey
2004-07-04 13:17 ` Sergey Vlasov
2004-07-05  0:56   ` Ivan Adzhubey
2004-07-05 10:24     ` Sergey Vlasov
2004-07-05 17:39       ` Ivan Adzhubey
2004-07-07  6:11         ` Michael Shigorin
2004-07-07  6:33           ` Ivan Adzhubey
2004-07-07  8:09             ` Michael Shigorin

ALT Linux hardware support

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/hardware/0 hardware/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 hardware hardware/ http://lore.altlinux.org/hardware \
		hardware@altlinux.ru hardware@lists.altlinux.org hardware@lists.altlinux.ru hardware@lists.altlinux.com hardware@altlinux.org
	public-inbox-index hardware

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.hardware


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git