From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: From: Ivan Adzhubey To: hardware@altlinux.ru Subject: Re: [Hardware] =?koi8-r?b?69TPLc7JwtXE2CDJzcXF1CDT1MHUydPUycvVINDPINzGxsXL1MnXzs/T1Mk=?= =?koi8-r?b?IG5taV93YXRjaGRvZz8=?= Date: Mon, 5 Jul 2004 13:39:14 -0400 User-Agent: KMail/1.6.2 References: <200407032348.51578.iadzhubey@rics.bwh.harvard.edu> <200407042056.52488.iadzhubey@rics.bwh.harvard.edu> <20040705102439.GA1283@master.mivlgu.local> In-Reply-To: <20040705102439.GA1283@master.mivlgu.local> MIME-Version: 1.0 Content-Disposition: inline Content-Type: text/plain; charset="koi8-r" Content-Transfer-Encoding: 8bit Message-Id: <200407051339.14679.iadzhubey@rics.bwh.harvard.edu> X-Authentication-Info: Submitted using SMTP AUTH at out001.verizon.net from [68.163.239.215] at Mon, 5 Jul 2004 12:39:15 -0500 X-BeenThere: hardware@altlinux.ru X-Mailman-Version: 2.1.5 Precedence: list Reply-To: hardware@altlinux.ru List-Id: ALT Linux hardware support List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Mon, 05 Jul 2004 17:39:17 -0000 Archived-At: List-Archive: On Monday 05 July 2004 06:24 am, Sergey Vlasov wrote: > On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote: > > Это все так, в теории, но вот я неполенился сходить на работу посмотреть > > на умершую ноду. На консоли написано: NMI Watchdog detected lockup on > > CPU0, потом идет дамп регистров и в конце: Shutting up console... И все, > > висим. То есть watchdog вроде бы сработал, но почему машину не > > перегрузил?? В параметрах загрузки ядра стоит: panic=30, то есть должны > > через тридцать секунд после oops'а перегрузиться автоматом. Фиг вам. И > > как это понимать? > > Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло > в контексте какого-либо процесса, убивается только этот процесс. Впрочем, > убивается он достаточно грубо, так что система всё равно вряд ли продолжит > работу после этого. Угу, я уже сам слазил в исходники и посмотрел. А документация на сайте RedHat врет... > nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в > результате его срабатывания backtrace нужно смотреть, на чём именно > повисло (как правило, это какой-то spinlock), и по этим данным искать > ошибку. Значит попробуем softdog. Но как я понимаю, к модулю кернеля нужен еще и userspace daemon, а в Сизифе ничего такого нет. Да и вообще, кроме старого дебиановского проекта watchdog я ничего в сети не нашел, как не старался. Не ставить же HA-linux только ради этого демона. Грустная картина. Неужто ни у кого серверы не виснут? -- Иван