From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: Date: Mon, 5 Jul 2004 14:24:39 +0400 From: Sergey Vlasov To: hardware@altlinux.ru Subject: Re: [Hardware] =?koi8-r?B?69TPLc7JwtXE2CDJ?= =?koi8-r?B?zcXF1CDT1MHUydPUycvVINDPINzGxsXL1MnXzs/T1Mk=?= nmi_watchdog? Message-ID: <20040705102439.GA1283@master.mivlgu.local> Mail-Followup-To: hardware@altlinux.ru References: <200407032348.51578.iadzhubey@rics.bwh.harvard.edu> <20040704131719.GC3332@sirius.home> <200407042056.52488.iadzhubey@rics.bwh.harvard.edu> Mime-Version: 1.0 Content-Type: multipart/signed; micalg=pgp-sha1; protocol="application/pgp-signature"; boundary="KsGdsel6WgEHnImy" Content-Disposition: inline In-Reply-To: <200407042056.52488.iadzhubey@rics.bwh.harvard.edu> X-BeenThere: hardware@altlinux.ru X-Mailman-Version: 2.1.5 Precedence: list Reply-To: hardware@altlinux.ru List-Id: ALT Linux hardware support List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Mon, 05 Jul 2004 10:24:40 -0000 Archived-At: List-Archive: --KsGdsel6WgEHnImy Content-Type: text/plain; charset=koi8-r Content-Disposition: inline Content-Transfer-Encoding: 8bit On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote: > On Sunday 04 July 2004 09:17 am, Sergey Vlasov wrote: > > On Sat, Jul 03, 2004 at 11:48:51PM -0400, Ivan Adzhubey wrote: > > > Добавил на кластере nmi_watchdog=2 к опциям загрузки ядра (=1 не > > > сработало), судя по /proc/interrupts NMI запустились, но вот только что > > > опять нода умерла и даже не думает перегружаться. Насколько вообще > > > эффективен этот kernel NMI handler? Или без аппаратного watchdog все > > > равно не обойтись? Если у кого-то есть опыт, поделитесь пожалуйста. > > > > nmi_watchdog отлавливает только ситуации зацикливания с запрещёнными > > прерываниями. Можно к нему добавить ещё softdog; впрочем, в случае > > действительно аппаратного зависания это всё равно не поможет. > > Это все так, в теории, но вот я неполенился сходить на работу посмотреть на > умершую ноду. На консоли написано: NMI Watchdog detected lockup on CPU0, > потом идет дамп регистров и в конце: Shutting up console... И все, висим. То > есть watchdog вроде бы сработал, но почему машину не перегрузил?? В > параметрах загрузки ядра стоит: panic=30, то есть должны через тридцать > секунд после oops'а перегрузиться автоматом. Фиг вам. И как это понимать? Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло в контексте какого-либо процесса, убивается только этот процесс. Впрочем, убивается он достаточно грубо, так что система всё равно вряд ли продолжит работу после этого. nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в результате его срабатывания backtrace нужно смотреть, на чём именно повисло (как правило, это какой-то spinlock), и по этим данным искать ошибку. --KsGdsel6WgEHnImy Content-Type: application/pgp-signature Content-Disposition: inline -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.2.4 (GNU/Linux) iD8DBQFA6SxnW82GfkQfsqIRAn4AAJ4oIcO8BIvBUYXE2fRqcKJbICw3jgCffUbS 53uxbbth8Avq0lbkhEIERXs= =bJJZ -----END PGP SIGNATURE----- --KsGdsel6WgEHnImy--