* [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? @ 2004-07-04 3:48 Ivan Adzhubey 2004-07-04 13:17 ` Sergey Vlasov 0 siblings, 1 reply; 8+ messages in thread From: Ivan Adzhubey @ 2004-07-04 3:48 UTC (permalink / raw) To: hardware Доброго времени суток всем! Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не сработало), судя по /proc/interrupts NMI запустились, но вот только что опять нода умерла и даже не думает перегружаться. Насколько вообще эффективен этот kernel NMI handler? Или без аппаратного watchdog все равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста. -- Иван ^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? 2004-07-04 3:48 [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? Ivan Adzhubey @ 2004-07-04 13:17 ` Sergey Vlasov 2004-07-05 0:56 ` Ivan Adzhubey 0 siblings, 1 reply; 8+ messages in thread From: Sergey Vlasov @ 2004-07-04 13:17 UTC (permalink / raw) To: hardware [-- Attachment #1: Type: text/plain, Size: 628 bytes --] On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote: > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не сработало), > судя по /proc/interrupts NMI запустились, но вот только что опять нода умерла > и даже не думает перегружаться. Насколько вообще эффективен этот kernel NMI > handler? Или без аппаратного watchdog все равно не обойтись? Если у кого-то > есть опыт, поделитесь пожалуйста. nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными прерываниями. Можно к нему добавить ещё softdog; впрочем, в случае действительно аппаратного зависания это всё равно не поможет. [-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --] ^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? 2004-07-04 13:17 ` Sergey Vlasov @ 2004-07-05 0:56 ` Ivan Adzhubey 2004-07-05 10:24 ` Sergey Vlasov 0 siblings, 1 reply; 8+ messages in thread From: Ivan Adzhubey @ 2004-07-05 0:56 UTC (permalink / raw) To: hardware On Sunday 04 July 2004 09:17 am, Sergey Vlasov wrote: > On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote: > > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не > > сработало), судя по /proc/interrupts NMI запустились, но вот только что > > опять нода умерла и даже не думает перегружаться. Насколько вообще > > эффективен этот kernel NMI handler? Или без аппаратного watchdog все > > равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста. > > nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными > прерываниями. Можно к нему добавить ещё softdog; впрочем, в случае > действительно аппаратного зависания это всё равно не поможет. Это все так, в теории, но вот я неполенился сходить на работу посмотреть на умершую ноду. На консоли написано: NMI Watchdog detected lockup on CPU0, потом идет дамп регистров и в конце: Shutting up console... И все, висим. То есть watchdog вроде бы сработал, но почему машину не перегрузил?? В параметрах загрузки ядра стоит: panic=30, то есть должны через тридцать секунд после oops'а перегрузиться автоматом. Фиг вам. И как это понимать? -- Иван ^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? 2004-07-05 0:56 ` Ivan Adzhubey @ 2004-07-05 10:24 ` Sergey Vlasov 2004-07-05 17:39 ` Ivan Adzhubey 0 siblings, 1 reply; 8+ messages in thread From: Sergey Vlasov @ 2004-07-05 10:24 UTC (permalink / raw) To: hardware [-- Attachment #1: Type: text/plain, Size: 1699 bytes --] On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote: > On Sunday 04 July 2004 09:17 am, Sergey Vlasov wrote: > > On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote: > > > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не > > > сработало), судя по /proc/interrupts NMI запустились, но вот только что > > > опять нода умерла и даже не думает перегружаться. Насколько вообще > > > эффективен этот kernel NMI handler? Или без аппаратного watchdog все > > > равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста. > > > > nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными > > прерываниями. Можно к нему добавить ещё softdog; впрочем, в случае > > действительно аппаратного зависания это всё равно не поможет. > > Это все так, в теории, но вот я неполенился сходить на работу посмотреть на > умершую ноду. На консоли написано: NMI Watchdog detected lockup on CPU0, > потом идет дамп регистров и в конце: Shutting up console... И все, висим. То > есть watchdog вроде бы сработал, но почему машину не перегрузил?? В > параметрах загрузки ядра стоит: panic=30, то есть должны через тридцать > секунд после oops'а перегрузиться автоматом. Фиг вам. И как это понимать? Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло в контексте какого-либо процесса, убивается только этот процесс. Впрочем, убивается он достаточно грубо, так что система всё равно вряд ли продолжит работу после этого. nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в результате его срабатывания backtrace нужно смотреть, на чём именно повисло (как правило, это какой-то spinlock), и по этим данным искать ошибку. [-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --] ^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? 2004-07-05 10:24 ` Sergey Vlasov @ 2004-07-05 17:39 ` Ivan Adzhubey 2004-07-07 6:11 ` Michael Shigorin 0 siblings, 1 reply; 8+ messages in thread From: Ivan Adzhubey @ 2004-07-05 17:39 UTC (permalink / raw) To: hardware On Monday 05 July 2004 06:24 am, Sergey Vlasov wrote: > On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote: > > Это все так, в теории, но вот я неполенился сходить на работу посмотреть > > на умершую ноду. На консоли написано: NMI Watchdog detected lockup on > > CPU0, потом идет дамп регистров и в конце: Shutting up console... И все, > > висим. То есть watchdog вроде бы сработал, но почему машину не > > перегрузил?? В параметрах загрузки ядра стоит: panic=30, то есть должны > > через тридцать секунд после oops'а перегрузиться автоматом. Фиг вам. И > > как это понимать? > > Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло > в контексте какого-либо процесса, убивается только этот процесс. Впрочем, > убивается он достаточно грубо, так что система всё равно вряд ли продолжит > работу после этого. Угу, я уже сам слазил в исходники и посмотрел. А документация на сайте RedHat врет... > nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в > результате его срабатывания backtrace нужно смотреть, на чём именно > повисло (как правило, это какой-то spinlock), и по этим данным искать > ошибку. Значит попробуем softdog. Но как я понимаю, к модулю кернеля нужен еще и userspace daemon, а в Сизифе ничего такого нет. Да и вообще, кроме старого дебиановского проекта watchdog я ничего в сети не нашел, как не старался. Не ставить же HA-linux только ради этого демона. Грустная картина. Неужто ни у кого серверы не виснут? -- Иван ^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? 2004-07-05 17:39 ` Ivan Adzhubey @ 2004-07-07 6:11 ` Michael Shigorin 2004-07-07 6:33 ` Ivan Adzhubey 0 siblings, 1 reply; 8+ messages in thread From: Michael Shigorin @ 2004-07-07 6:11 UTC (permalink / raw) To: hardware On Mon, Jul 05, 2004 at 01:39:14PM -0400, Ivan Adzhubey wrote: > Грустная картина. Неужто ни у кого серверы не виснут? Серверы работают. Знакомый народ с большими парками пользует разнообразные аппаратные штуки; в частности, их есть на inpc.kiev.ua. -- ---- WBR, Michael Shigorin <mike@altlinux.ru> ------ Linux.Kiev http://www.linux.kiev.ua/ ^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? 2004-07-07 6:11 ` Michael Shigorin @ 2004-07-07 6:33 ` Ivan Adzhubey 2004-07-07 8:09 ` Michael Shigorin 0 siblings, 1 reply; 8+ messages in thread From: Ivan Adzhubey @ 2004-07-07 6:33 UTC (permalink / raw) To: hardware On Wednesday 07 July 2004 02:11 am, Michael Shigorin wrote: > On Mon, Jul 05, 2004 at 01:39:14PM -0400, Ivan Adzhubey wrote: > > Грустная картина. Неужто ни у кого серверы не виснут? > > Серверы работают. Знакомый народ с большими парками пользует > разнообразные аппаратные штуки; в частности, их есть на > inpc.kiev.ua. А каким софтом пользуетесь? Мне бы найти хорошего демона, а с железками у нас на массачусеттсене проблем нету. Не то что бы уж очень часто виснет, но у меня под крылом несколько серверов в MIT и в Гарварде и мотаться по городу бывает напряжно. Попробую собрать этот дебиановский watchdog, вот только смущает, что проект в заброшеном состоянии. Да и в Сизифе хорошо было бы иметь хотя бы что-то на тему high availability. -- Иван ^ permalink raw reply [flat|nested] 8+ messages in thread
* Re: [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? 2004-07-07 6:33 ` Ivan Adzhubey @ 2004-07-07 8:09 ` Michael Shigorin 0 siblings, 0 replies; 8+ messages in thread From: Michael Shigorin @ 2004-07-07 8:09 UTC (permalink / raw) To: hardware On Wed, Jul 07, 2004 at 02:33:14AM -0400, Ivan Adzhubey wrote: > А каким софтом пользуетесь? Так я ж говорю -- не пользуюсь, нет настолько критичного [сейчас]. А когда было -- работало себе, по форс-мажорам на площадке даунтайм только был, по сути. -- ---- WBR, Michael Shigorin <mike@altlinux.ru> ------ Linux.Kiev http://www.linux.kiev.ua/ ^ permalink raw reply [flat|nested] 8+ messages in thread
end of thread, other threads:[~2004-07-07 8:09 UTC | newest] Thread overview: 8+ messages (download: mbox.gz / follow: Atom feed) -- links below jump to the message on this page -- 2004-07-04 3:48 [Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog? Ivan Adzhubey 2004-07-04 13:17 ` Sergey Vlasov 2004-07-05 0:56 ` Ivan Adzhubey 2004-07-05 10:24 ` Sergey Vlasov 2004-07-05 17:39 ` Ivan Adzhubey 2004-07-07 6:11 ` Michael Shigorin 2004-07-07 6:33 ` Ivan Adzhubey 2004-07-07 8:09 ` Michael Shigorin
ALT Linux hardware support This inbox may be cloned and mirrored by anyone: git clone --mirror http://lore.altlinux.org/hardware/0 hardware/git/0.git # If you have public-inbox 1.1+ installed, you may # initialize and index your mirror using the following commands: public-inbox-init -V2 hardware hardware/ http://lore.altlinux.org/hardware \ hardware@altlinux.ru hardware@lists.altlinux.org hardware@lists.altlinux.ru hardware@lists.altlinux.com hardware@altlinux.org public-inbox-index hardware Example config snippet for mirrors. Newsgroup available over NNTP: nntp://lore.altlinux.org/org.altlinux.lists.hardware AGPL code for this site: git clone https://public-inbox.org/public-inbox.git