From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: From: Ivan Adzhubey To: hardware@altlinux.ru Subject: Re: [Hardware] =?koi8-r?b?69TPLc7JwtXE2CDJzcXF1CDT1MHUydPUycvVINDPINzGxsXL1MnXzs/T1Mk=?= =?koi8-r?b?IG5taV93YXRjaGRvZz8=?= Date: Sun, 4 Jul 2004 20:56:52 -0400 User-Agent: KMail/1.6.2 References: <200407032348.51578.iadzhubey@rics.bwh.harvard.edu> <20040704131719.GC3332@sirius.home> In-Reply-To: <20040704131719.GC3332@sirius.home> MIME-Version: 1.0 Content-Disposition: inline Content-Type: text/plain; charset="koi8-r" Content-Transfer-Encoding: 8bit Message-Id: <200407042056.52488.iadzhubey@rics.bwh.harvard.edu> X-Authentication-Info: Submitted using SMTP AUTH at out005.verizon.net from [68.163.159.25] at Sun, 4 Jul 2004 19:56:53 -0500 X-BeenThere: hardware@altlinux.ru X-Mailman-Version: 2.1.5 Precedence: list Reply-To: hardware@altlinux.ru List-Id: ALT Linux hardware support List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Mon, 05 Jul 2004 00:56:55 -0000 Archived-At: List-Archive: On Sunday 04 July 2004 09:17 am, Sergey Vlasov wrote: > On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote: > > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не > > сработало), судя по /proc/interrupts NMI запустились, но вот только что > > опять нода умерла и даже не думает перегружаться. Насколько вообще > > эффективен этот kernel NMI handler? Или без аппаратного watchdog все > > равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста. > > nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными > прерываниями. Можно к нему добавить ещё softdog; впрочем, в случае > действительно аппаратного зависания это всё равно не поможет. Это все так, в теории, но вот я неполенился сходить на работу посмотреть на умершую ноду. На консоли написано: NMI Watchdog detected lockup on CPU0, потом идет дамп регистров и в конце: Shutting up console... И все, висим. То есть watchdog вроде бы сработал, но почему машину не перегрузил?? В параметрах загрузки ядра стоит: panic=30, то есть должны через тридцать секунд после oops'а перегрузиться автоматом. Фиг вам. И как это понимать? -- Иван