From: Sergey Vlasov <vsu@altlinux.ru>
To: hardware@altlinux.ru
Subject: Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?
Date: Mon, 5 Jul 2004 14:24:39 +0400
Message-ID: <20040705102439.GA1283@master.mivlgu.local> (raw)
In-Reply-To: <200407042056.52488.iadzhubey@rics.bwh.harvard.edu>
[-- Attachment #1: Type: text/plain, Size: 1699 bytes --]
On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote:
> On Sunday 04 July 2004 09:17 am, Sergey Vlasov wrote:
> > On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote:
> > > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не
> > > сработало), судя по /proc/interrupts NMI запустились, но вот только что
> > > опять нода умерла и даже не думает перегружаться. Насколько вообще
> > > эффективен этот kernel NMI handler? Или без аппаратного watchdog все
> > > равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста.
> >
> > nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными
> > прерываниями. Можно к нему добавить ещё softdog; впрочем, в случае
> > действительно аппаратного зависания это всё равно не поможет.
>
> Это все так, в теории, но вот я неполенился сходить на работу посмотреть на
> умершую ноду. На консоли написано: NMI Watchdog detected lockup on CPU0,
> потом идет дамп регистров и в конце: Shutting up console... И все, висим. То
> есть watchdog вроде бы сработал, но почему машину не перегрузил?? В
> параметрах загрузки ядра стоит: panic=30, то есть должны через тридцать
> секунд после oops'а перегрузиться автоматом. Фиг вам. И как это понимать?
Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло
в контексте какого-либо процесса, убивается только этот процесс. Впрочем,
убивается он достаточно грубо, так что система всё равно вряд ли продолжит
работу после этого.
nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в
результате его срабатывания backtrace нужно смотреть, на чём именно
повисло (как правило, это какой-то spinlock), и по этим данным искать
ошибку.
[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]
next prev parent reply other threads:[~2004-07-05 10:24 UTC|newest]
Thread overview: 8+ messages / expand[flat|nested] mbox.gz Atom feed top
2004-07-04 3:48 Ivan Adzhubey
2004-07-04 13:17 ` Sergey Vlasov
2004-07-05 0:56 ` Ivan Adzhubey
2004-07-05 10:24 ` Sergey Vlasov [this message]
2004-07-05 17:39 ` Ivan Adzhubey
2004-07-07 6:11 ` Michael Shigorin
2004-07-07 6:33 ` Ivan Adzhubey
2004-07-07 8:09 ` Michael Shigorin
Reply instructions:
You may reply publicly to this message via plain-text email
using any one of the following methods:
* Save the following mbox file, import it into your mail client,
and reply-to-all from there: mbox
Avoid top-posting and favor interleaved quoting:
https://en.wikipedia.org/wiki/Posting_style#Interleaved_style
* Reply using the --to, --cc, and --in-reply-to
switches of git-send-email(1):
git send-email \
--in-reply-to=20040705102439.GA1283@master.mivlgu.local \
--to=vsu@altlinux.ru \
--cc=hardware@altlinux.ru \
/path/to/YOUR_REPLY
https://kernel.org/pub/software/scm/git/docs/git-send-email.html
* If your mail client supports setting the In-Reply-To header
via mailto: links, try the mailto: link
ALT Linux hardware support
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/hardware/0 hardware/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 hardware hardware/ http://lore.altlinux.org/hardware \
hardware@altlinux.ru hardware@lists.altlinux.org hardware@lists.altlinux.ru hardware@lists.altlinux.com hardware@altlinux.org
public-inbox-index hardware
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.hardware
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git