ALT Linux sysadmins discussion
 help / color / mirror / Atom feed
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
  @ 2008-08-31  7:27 ` Max Ivanov
  2008-08-31  9:03 ` Dmitry V. Levin
  2008-09-02  7:36 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
  2 siblings, 0 replies; 15+ messages in thread
From: Max Ivanov @ 2008-08-31  7:27 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

У меня на одном сервере весь /etc/tcb чистился в 4:02. Все папки на
месте, а файлов в них нет, только папка рута оставалась. отчего и
почему так и не разобарсля, тоже по крону через su разные проги
пускались на вид безобидные, решил убиением все кроновских процессов с
su. Сервер на программном raid1

^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи, сбор информации)
    2008-08-31  7:27 ` [Sysadmins] зависание сервера (логи, сбор информации) Max Ivanov
@ 2008-08-31  9:03 ` Dmitry V. Levin
  2008-09-01  2:59   ` master altlinux
  2008-09-02  7:36 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
  2 siblings, 1 reply; 15+ messages in thread
From: Dmitry V. Levin @ 2008-08-31  9:03 UTC (permalink / raw)
  To: sysadmins

[-- Attachment #1: Type: text/plain, Size: 1592 bytes --]

On Sun, Aug 31, 2008 at 09:48:03AM +0400, master altlinux wrote:
>  Здравствуйте!
> 
> На серверах (7 Штук) работает altlinux master 2.4. Естественно от самого
> мастера там мало что осталось (большинство пакетов обновлено, ядро собрано
> 2.4.36).
> Несколько недель все работало нормально. Теперь каждую ночь в 4:02 идет
> зависание двух серверов.
> И вот такие чудные логи:
> 
> Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session opened for cacheman by
> (uid=0)
> Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
> Aug 31 04:02:03 vkufs1_11 last message repeated 3 times
> Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session closed for cacheman
> Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded
> Aug 31 06:02:22 vkufs1_11 syslogd 1.4.1: restart.
> Aug 31 06:02:22 vkufs1_11 syslogd: syslogd startup succeeded
> Aug 31 06:02:22 vkufs1_11 kernel: klogd 1.4.1, log source = /proc/kmsg
> started.
> Aug 31 06:02:22 vkufs1_11 klogd: klogd startup succeeded
> Aug 31 06:02:22 vkufs1_11 kernel: Inspecting
> /boot/System.map-2.4.36.arkhangel
> Aug 31 06:02:22 vkufs1_11 kernel: Loaded 19891 symbols from
> 
> 
> Причем зависание идет на обоих серверах ровно ровно в одно и тоже время.
> Начал анализировать проблему. Оказалось в это время выполняются задания
> anacron (лежат в /etc/cron.daily)
> logrotate
> cyrus-imapd
> makewhatis
> stmpclean
> sysstat
> 000anacron
> osec
> updatedb

Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте запустить
их вручную.  Если зависнет, то проверьте железо.


-- 
ldv

[-- Attachment #2: Type: application/pgp-signature, Size: 197 bytes --]

^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи, сбор информации)
  2008-08-31  9:03 ` Dmitry V. Levin
@ 2008-09-01  2:59   ` master altlinux
  2008-09-01  7:03     ` Yura Kalinichenko
  2008-09-03 18:52     ` Michael Shigorin
  0 siblings, 2 replies; 15+ messages in thread
From: master altlinux @ 2008-09-01  2:59 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

> Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте запустить
> их вручную.  Если зависнет, то проверьте железо.
>

Я из запускал несколько раз сразу же после перезагрузки. Ни к чему не привело.
Сегодня вышел в ночь. Все идеально. Ни один сервер не завис. Такое
впечатление, что на это появлияли прикладные программы. В пятницу
начался большой обмен данными и возможно это привело к падению. Сейчас
поставил iozone гоняться. Потом буду память на всякий случай
проверять.
За любые идеи - предложения - респект...

^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи, сбор информации)
  2008-09-01  2:59   ` master altlinux
@ 2008-09-01  7:03     ` Yura Kalinichenko
  2008-09-08  6:26       ` Владимир
  2008-09-03 18:52     ` Michael Shigorin
  1 sibling, 1 reply; 15+ messages in thread
From: Yura Kalinichenko @ 2008-09-01  7:03 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

master altlinux пишет:
>> Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте запустить
>> их вручную.  Если зависнет, то проверьте железо.
>>
>>     
>
> Я из запускал несколько раз сразу же после перезагрузки. Ни к чему не привело.
> Сегодня вышел в ночь. Все идеально. Ни один сервер не завис. Такое
> впечатление, что на это появлияли прикладные программы. В пятницу
> начался большой обмен данными и возможно это привело к падению. Сейчас
> поставил iozone гоняться. Потом буду память на всякий случай
> проверять.
> За любые идеи - предложения - респект...
У меня тоже куча серверов под M24. Периодически (похоже, после 
logrotate) очень странно падает syslog: вроде как по всем признакам 
живой, но в журналы ничего не пишется. При этом в системе начинаются 
различные плоходиагностируемые глюки. Помогает вот такой скриптец, 
пускаемый через cron:

#!/bin/sh

addr=root

# максимально допустимый промежуток времени отсутствия записей в syslog в секундах

MAX_DELTA_SEC=3600

/etc/init.d/syslogd status >/dev/null 2>&1

status=$?

if [ $status -eq 0 ]; then

   # Получим дату/время из последней записи в syslog

   last_log_date=`tail -n 1 /var/log/messages | awk '{printf "%s %s %s",$1,$2,$3}'`

   if [ -n "$last_log_date" ]; then

      # Преобразуем в секунды с 00:00:00 1970-01-01 UTC

      last_log_date="`date --date="$last_log_date" +%s`"

      current_date="`date +%s`"

      delta=`expr $current_date - $last_log_date`

      if [ $delta -gt $MAX_DELTA_SEC ]; then

         status=2

      fi

   fi

fi

if [ $status -ne 0 ]; then

   echo "syslogd is down. Try restart..." | mail -s "ERROR syslogd" $addr

   /etc/init.d/syslogd restart >/dev/null 2>&1

fi



-- 
SY, 
   Yura Kalinichenko



^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера ( логи , сбор информации )
    2008-08-31  7:27 ` [Sysadmins] зависание сервера (логи, сбор информации) Max Ivanov
  2008-08-31  9:03 ` Dmitry V. Levin
@ 2008-09-02  7:36 ` Sergey
  2 siblings, 0 replies; 15+ messages in thread
From: Sergey @ 2008-09-02  7:36 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

On Sunday 31 August 2008, master altlinux wrote:

> И вот такие чудные логи:

Что касается рестартов syslog/klog, это logrotate...

-- 
С уважением, Сергей
a_s_y@sama.ru


^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи, сбор информации)
  2008-09-01  2:59   ` master altlinux
  2008-09-01  7:03     ` Yura Kalinichenko
@ 2008-09-03 18:52     ` Michael Shigorin
  2008-09-06  9:01       ` master altlinux
  1 sibling, 1 reply; 15+ messages in thread
From: Michael Shigorin @ 2008-09-03 18:52 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

On Mon, Sep 01, 2008 at 06:59:42AM +0400, master altlinux wrote:
> За любые идеи - предложения - респект...

Ну если за любые...

Мне ядра сборки vsu@ нравятся определённо больше, чем своей.

Если есть возможность -- проведите текущее обслуживание систем,
начиная с пылесоса по корпусу, кулерам и памяти.

Просмотрите глазами конденсаторы -- не вздулись ли какие.

Прогоните несколько часов (хоть полчаса) memtest86+, а по дискам
-- bonnie++.  После smartctl -a, если это программный RAID.

Ещё могу предложить для анализа тенденций использовать collectd 
в клиент-серверном варианте (чтоб все байтики статистики, что
успеет засунуть в сеть, были сохранены) -- можете попробовать
сбэкпортить на M24 пакет из Daedalus, который всё никак не
доберётся после доработки до Sisyphus и в бранчи.

PS: как задумаетесь перетаскивать системы -- проверено
засовывание целиком в OpenVZ-контейнер под Server 4.0
с последующей постепенной/управляемой/откатывабельной
миграцией сервисов на 4.0.

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи, сбор информации)
  2008-09-03 18:52     ` Michael Shigorin
@ 2008-09-06  9:01       ` master altlinux
  2008-09-06 15:18         ` [Sysadmins] зависание сервера ( логи , сбор информации ) Led
  2008-09-07 20:28         ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
  0 siblings, 2 replies; 15+ messages in thread
From: master altlinux @ 2008-09-06  9:01 UTC (permalink / raw)
  To: shigorin, ALT Linux sysadmin discuss

Спасибо всем большое...

Добился определенных результатов.
1. На сервере кроме ОС работает ППО (оно иногда пишет небольшие объемы
 информации - в час по 50-100 мб.) Поставил iozone тестироваться
вместе с ППО - через 2.5 часа сервер повис. Потом через сутки опять
iozone был поставлен но без ППО сервер выдержал.

2. Начал эксперементировать: работает ППО и запускаю скрипт obsec -
перезагрузка системы. Работает ППО - и запускаю скрипт updatedb -
система зависает.

3. Вчера вообще пипец начался: операторы по sftp копируют файлы с
сервера и он стабильно перегружается.

2Michael Shigorin: мне тоже нравятся ваши (ну в смысле altlinux)
сборки ядра. Но ваша компания отказалась поддерживать ветку ядра 2.4 и
поэтому приходится собирать самому. Пропылесосить это хорошее идея,
только почему они вместе падают и зависают.
Я считаю дело в дисковой подсистеме точнее в драйвере для raid массива
(aacraid).

Вот распечатка lsmod:
Module                  Size  Used by    Not tainted
sg                     29468   0  (autoclean)
sr_mod                 14320   0  (autoclean)
cdrom                  27552   0  (autoclean) [sr_mod]
floppy                 48056   0  (autoclean)
usb-storage            26040   0
autofs4                 8532   0  (autoclean)
usb-uhci               21996   0  (unused)
ehci-hcd               16872   0  (unused)
e1000                  97640   4  (autoclean)
ide-scsi                9296   0
ipmi_kcs_drv            8333   1
ipmi_devintf            3592   0  (unused)
w83627hf               14332   0  (unused)
bmcsensors             15937   0  (unused)
i2c-proc                5892   0  [w83627hf bmcsensors]
i2c-ipmi                2028   0  (unused)
ipmi_msghandler        14824   0  [ipmi_kcs_drv ipmi_devintf i2c-ipmi]
i2c-isa                  808   0  (unused)
i2c-i801                4664   0  (unused)
i2c-core               15172   0  [w83627hf bmcsensors i2c-proc
i2c-ipmi i2c-isa i2c-i801]
rtc                     6780   0  (autoclean)
aacraid                30212   4
sd_mod                 10832   8

А вот распечатка lspci -v:
00:00.0 Host bridge: Intel Corp.: Unknown device 25d8 (rev b1)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: bus master, fast devsel, latency 0, IRQ 16
	Capabilities: [50] Power Management version 2
	Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
	Capabilities: [6c] #10 [0041]

00:02.0 PCI bridge: Intel Corp.: Unknown device 25f7 (rev b1) (prog-if
00 [Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=00, secondary=01, subordinate=07, sec-latency=0
	I/O behind bridge: 00002000-00003fff
	Memory behind bridge: d8000000-d86fffff
	Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
	Capabilities: [50] Power Management version 2
	Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
	Capabilities: [6c] #10 [0041]

00:04.0 PCI bridge: Intel Corp.: Unknown device 25f8 (rev b1) (prog-if
00 [Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=00, secondary=08, subordinate=08, sec-latency=0
	Capabilities: [50] Power Management version 2
	Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
	Capabilities: [6c] #10 [0141]

00:06.0 PCI bridge: Intel Corp.: Unknown device 25f9 (rev b1) (prog-if
00 [Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=00, secondary=09, subordinate=09, sec-latency=0
	Capabilities: [50] Power Management version 2
	Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
	Capabilities: [6c] #10 [0141]

00:08.0 System peripheral: Intel Corp.: Unknown device 1a38 (rev b1)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: bus master, fast devsel, latency 0, IRQ 16
	Memory at fe700000 (64-bit, non-prefetchable) [size=1K]
	Capabilities: [50] Power Management version 2
	Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-
	Capabilities: [6c] #10 [0091]

00:10.0 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: fast devsel

00:10.1 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: fast devsel

00:10.2 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: fast devsel

00:11.0 Host bridge: Intel Corp.: Unknown device 25f1 (rev b1)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: fast devsel

00:13.0 Host bridge: Intel Corp.: Unknown device 25f3 (rev b1)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: fast devsel

00:15.0 Host bridge: Intel Corp.: Unknown device 25f5 (rev b1)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: fast devsel

00:16.0 Host bridge: Intel Corp.: Unknown device 25f6 (rev b1)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: fast devsel

00:1c.0 PCI bridge: Intel Corp.: Unknown device 2690 (rev 09) (prog-if
00 [Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=00, secondary=0a, subordinate=0a, sec-latency=0
	Capabilities: [40] #10 [0141]
	Capabilities: [80] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-
	Capabilities: [90] #0d [0000]
	Capabilities: [a0] Power Management version 2

00:1d.0 USB Controller: Intel Corp.: Unknown device 2688 (rev 09)
(prog-if 00 [UHCI])
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: bus master, medium devsel, latency 0, IRQ 17
	I/O ports at 1800 [size=32]

00:1d.1 USB Controller: Intel Corp.: Unknown device 2689 (rev 09)
(prog-if 00 [UHCI])
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: bus master, medium devsel, latency 0, IRQ 19
	I/O ports at 1820 [size=32]

00:1d.2 USB Controller: Intel Corp.: Unknown device 268a (rev 09)
(prog-if 00 [UHCI])
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: bus master, medium devsel, latency 0, IRQ 18
	I/O ports at 1840 [size=32]

00:1d.7 USB Controller: Intel Corp.: Unknown device 268c (rev 09)
(prog-if 20 [EHCI])
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: bus master, medium devsel, latency 0, IRQ 17
	Memory at d8a00000 (32-bit, non-prefetchable) [size=1K]
	Capabilities: [50] Power Management version 2
	Capabilities: [58] #0a [20a0]

00:1e.0 PCI bridge: Intel Corp. 82801BA/CA/DB/EB/ER Hub interface to
PCI Bridge (rev d9) (prog-if 01 [Subtractive decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=00, secondary=0b, subordinate=0b, sec-latency=32
	I/O behind bridge: 00004000-00004fff
	Memory behind bridge: d8700000-d87fffff
	Prefetchable memory behind bridge: 00000000d0000000-00000000d7f00000
	Capabilities: [50] #0d [0000]

00:1f.0 ISA bridge: Intel Corp.: Unknown device 2670 (rev 09)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: bus master, medium devsel, latency 0

00:1f.1 IDE interface: Intel Corp.: Unknown device 269e (rev 09)
(prog-if 8a [Master SecP PriP])
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: bus master, medium devsel, latency 0, IRQ 18
	I/O ports at <unassigned>
	I/O ports at <unassigned>
	I/O ports at <unassigned>
	I/O ports at <unassigned>
	I/O ports at 1860 [size=16]

00:1f.3 SMBus: Intel Corp.: Unknown device 269b (rev 09)
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: medium devsel, IRQ 19
	I/O ports at 1100 [size=32]

01:00.0 PCI bridge: Intel Corp.: Unknown device 3500 (rev 01) (prog-if
00 [Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=01, secondary=02, subordinate=06, sec-latency=0
	I/O behind bridge: 00002000-00003fff
	Memory behind bridge: d8000000-d85fffff
	Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
	Capabilities: [44] #10 [0051]
	Capabilities: [70] Power Management version 2
	Capabilities: [80] #0d [0000]

01:00.3 PCI bridge: Intel Corp.: Unknown device 350c (rev 01) (prog-if
00 [Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=01, secondary=07, subordinate=07, sec-latency=64
	Capabilities: [44] #10 [0071]
	Capabilities: [6c] Power Management version 2
	Capabilities: [80] #0d [0000]
	Capabilities: [d8]
02:00.0 PCI bridge: Intel Corp.: Unknown device 3510 (rev 01) (prog-if
00 [Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=02, secondary=03, subordinate=05, sec-latency=0
	I/O behind bridge: 00002000-00002fff
	Memory behind bridge: d8000000-d84fffff
	Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
	Capabilities: [44] #10 [0061]
	Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
	Capabilities: [70] Power Management version 2
	Capabilities: [80] #0d [0000]

02:02.0 PCI bridge: Intel Corp.: Unknown device 3518 (rev 01) (prog-if
00 [Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=02, secondary=06, subordinate=06, sec-latency=0
	I/O behind bridge: 00003000-00003fff
	Memory behind bridge: d8500000-d85fffff
	Capabilities: [44] #10 [0061]
	Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
	Capabilities: [70] Power Management version 2
	Capabilities: [80] #0d [0000]

03:00.0 PCI bridge: Intel Corp. PCI Bridge Hub A (rev 09) (prog-if 00
[Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=03, secondary=04, subordinate=04, sec-latency=64
	Memory behind bridge: d8000000-d83fffff
	Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
	Capabilities: [44] #10 [0071]
	Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
	Capabilities: [6c] Power Management version 2
	Capabilities: [d8]
03:00.2 PCI bridge: Intel Corp. PCI Bridge Hub B (rev 09) (prog-if 00
[Normal decode])
	Flags: bus master, fast devsel, latency 0
	Bus: primary=03, secondary=05, subordinate=05, sec-latency=64
	I/O behind bridge: 00002000-00002fff
	Memory behind bridge: d8400000-d84fffff
	Capabilities: [44] #10 [0071]
	Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
	Capabilities: [6c] Power Management version 2
	Capabilities: [d8]
04:01.0 RAID bus controller: Adaptec AAC-RAID (rev 02)
	Subsystem: Adaptec ASR-2020S PCI-X ZCR (Skyhawk)
	Flags: bus master, stepping, 66Mhz, medium devsel, latency 32, IRQ 16
	Memory at d8200000 (64-bit, non-prefetchable) [size=2M]
	Memory at d8000000 (32-bit, non-prefetchable) [size=2M]
	Memory at c0000000 (32-bit, prefetchable) [size=256M]
	Expansion ROM at <unassigned> [disabled] [size=32K]
	Capabilities: [c0] Power Management version 2
	Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/1 Enable-
	Capabilities: [e0] PCI-X non-bridge device.

05:01.0 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet
Controller (rev 03)
	Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection
	Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 16
	Memory at d8480000 (64-bit, non-prefetchable) [size=128K]
	Memory at d8400000 (64-bit, non-prefetchable) [size=256K]
	I/O ports at 2000 [size=64]
	Expansion ROM at <unassigned> [disabled] [size=256K]
	Capabilities: [dc] Power Management version 2
	Capabilities: [e4] 	Capabilities: [f0] Message Signalled Interrupts:
64bit+ Queue=0/0 Enable-

05:01.1 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet
Controller (rev 03)
	Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection
	Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 17
	Memory at d84a0000 (64-bit, non-prefetchable) [size=128K]
	Memory at d8440000 (64-bit, non-prefetchable) [size=256K]
	I/O ports at 2040 [size=64]
	Expansion ROM at <unassigned> [disabled] [size=256K]
	Capabilities: [dc] Power Management version 2
	Capabilities: [e4] 	Capabilities: [f0] Message Signalled Interrupts:
64bit+ Queue=0/0 Enable-

06:00.0 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01)
	Subsystem: Super Micro Computer Inc: Unknown device 0000
	Flags: bus master, fast devsel, latency 0, IRQ 18
	Memory at d8500000 (32-bit, non-prefetchable) [size=128K]
	I/O ports at 3000 [size=32]
	Capabilities: [c8] Power Management version 2
	Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
	Capabilities: [e0] #10 [0001]

06:00.1 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01)
	Subsystem: Super Micro Computer Inc: Unknown device 0000
	Flags: bus master, fast devsel, latency 0, IRQ 19
	Memory at d8520000 (32-bit, non-prefetchable) [size=128K]
	I/O ports at 3020 [size=32]
	Capabilities: [c8] Power Management version 2
	Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
	Capabilities: [e0] #10 [0001]

0b:01.0 VGA compatible controller: ATI Technologies Inc: Unknown
device 515e (rev 02) (prog-if 00 [VGA])
	Subsystem: Super Micro Computer Inc: Unknown device 8080
	Flags: bus master, stepping, fast Back2Back, medium devsel, latency 66, IRQ 18
	Memory at d0000000 (32-bit, prefetchable) [size=128M]
	I/O ports at 4000 [size=256]
	Memory at d8700000 (32-bit, non-prefetchable) [size=64K]
	Expansion ROM at <unassigned> [disabled]  [size=128K]
	Capabilities: [50] Power Management version 2

В свое время на других объектах я собирал с этими железками и
драйверами на ядрах 2.4.32 и 2.4.35 и все работало без проблем.

Очень жду совета. Сейчас ситуация очень критическая. Если будут советы
по пересборке ядра либо вывода более подробной диагностической
информации в случании падения - буду очень признателен.

On 9/3/08, Michael Shigorin <mike@osdn.org.ua> wrote:
> On Mon, Sep 01, 2008 at 06:59:42AM +0400, master altlinux wrote:
>> За любые идеи - предложения - респект...
>
> Ну если за любые...
>
> Мне ядра сборки vsu@ нравятся определённо больше, чем своей.
>
> Если есть возможность -- проведите текущее обслуживание систем,
> начиная с пылесоса по корпусу, кулерам и памяти.
>
> Просмотрите глазами конденсаторы -- не вздулись ли какие.
>
> Прогоните несколько часов (хоть полчаса) memtest86+, а по дискам
> -- bonnie++.  После smartctl -a, если это программный RAID.
>
> Ещё могу предложить для анализа тенденций использовать collectd
> в клиент-серверном варианте (чтоб все байтики статистики, что
> успеет засунуть в сеть, были сохранены) -- можете попробовать
> сбэкпортить на M24 пакет из Daedalus, который всё никак не
> доберётся после доработки до Sisyphus и в бранчи.
>
> PS: как задумаетесь перетаскивать системы -- проверено
> засовывание целиком в OpenVZ-контейнер под Server 4.0
> с последующей постепенной/управляемой/откатывабельной
> миграцией сервисов на 4.0.
>
> --
>  ---- WBR, Michael Shigorin <mike@altlinux.ru>
>   ------ Linux.Kiev http://www.linux.kiev.ua/
> _______________________________________________
> Sysadmins mailing list
> Sysadmins@lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/sysadmins
>

^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера ( логи , сбор информации )
  2008-09-06  9:01       ` master altlinux
@ 2008-09-06 15:18         ` Led
  2008-09-07 20:28         ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
  1 sibling, 0 replies; 15+ messages in thread
From: Led @ 2008-09-06 15:18 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

On Saturday, 06 September 2008 12:01:24 master altlinux wrote:
> Спасибо всем большое...
>
> Добился определенных результатов.
> 1. На сервере кроме ОС работает ППО (оно иногда пишет небольшие объемы
>  информации - в час по 50-100 мб.) Поставил iozone тестироваться
> вместе с ППО - через 2.5 часа сервер повис. Потом через сутки опять
> iozone был поставлен но без ППО сервер выдержал.
>
> 2. Начал эксперементировать: работает ППО и запускаю скрипт obsec -
> перезагрузка системы. Работает ППО - и запускаю скрипт updatedb -
> система зависает.
>
> 3. Вчера вообще пипец начался: операторы по sftp копируют файлы с
> сервера и он стабильно перегружается.
>
> 2Michael Shigorin: мне тоже нравятся ваши (ну в смысле altlinux)
> сборки ядра. Но ваша компания отказалась поддерживать ветку ядра 2.4 и
> поэтому приходится собирать самому. Пропылесосить это хорошее идея,
> только почему они вместе падают и зависают.
> Я считаю дело в дисковой подсистеме точнее в драйвере для raid массива
> (aacraid).

userspace (в частности, из-за glibc) в "altlinux" не будет нормально работать 
с ядром 2.4. AFAIK нужно >= 2.6.8.
Т.о. вы просто теряете время, пытаясь что-то решить в рассылке:)


-- 
Led

^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи, сбор информации)
  2008-09-06  9:01       ` master altlinux
  2008-09-06 15:18         ` [Sysadmins] зависание сервера ( логи , сбор информации ) Led
@ 2008-09-07 20:28         ` Michael Shigorin
  2008-09-08  6:04           ` master altlinux
  2008-09-08  7:20           ` [Sysadmins] зависание сервера (логи,сбор информации) Vladimir V. Kamarzin
  1 sibling, 2 replies; 15+ messages in thread
From: Michael Shigorin @ 2008-09-07 20:28 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

On Sat, Sep 06, 2008 at 01:01:24PM +0400, master altlinux wrote:
> 2Michael Shigorin: мне тоже нравятся ваши (ну в смысле altlinux)
> сборки ядра. Но ваша компания отказалась поддерживать ветку
> ядра 2.4 и поэтому приходится собирать самому. Пропылесосить
> это хорошее идея, только почему они вместе падают и зависают.

Потому что нагрузка по схожему crontab может приводить
неустойчивые физически системы к почти синхронному слёту.

> Я считаю дело в дисковой подсистеме точнее в драйвере для raid
> массива (aacraid).

Да вроде про них ничего особо плохого не пробегало... e.g.
http://lists.altlinux.ru/pipermail/hardware/2005-January/003253.html
-- если б были известные грабли, vsu@ бы наверняка хоть словом
обмолвился, поскольку в остальном характеристика краткая,
но скорее положительная.

> В свое время на других объектах я собирал с этими железками и
> драйверами на ядрах 2.4.32 и 2.4.35 и все работало без проблем.

Своей же сборки?  Если да -- я бы искал проблему в другом
или сравнивал .config (BTW ещё стоит сравнить версии BIOS
мамок и контроллеров).

> либо вывода более подробной диагностической информации в
> случании падения - буду очень признателен.

Насколько понимаю, через обычную или serial-консоль...
если виснет наглухо, сразу ребутается -- тогда не знаю совсем.
(разве если panic=5 какой передаёте, то можно поднять до
минуты-двух, чтоб хоть успеть посмотреть дамп;
vga=что-там-было-для-43-строк тоже полезно)

PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x?

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи, сбор информации)
  2008-09-07 20:28         ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
@ 2008-09-08  6:04           ` master altlinux
  2008-09-08  9:57             ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
                               ` (2 more replies)
  2008-09-08  7:20           ` [Sysadmins] зависание сервера (логи,сбор информации) Vladimir V. Kamarzin
  1 sibling, 3 replies; 15+ messages in thread
From: master altlinux @ 2008-09-08  6:04 UTC (permalink / raw)
  To: shigorin, ALT Linux sysadmin discuss

>
> PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x?
>

Да обязательно. ППО которое работает на данных серверах не  стабильно
функционирует на ядрах 2.6
Версии биоса перепроверено и настроено одинаково. На остальных
серверах где НЕТ raid 5 уровня и работает софтовый райд массив
(зеркалка) таких проблем нет.
Сейчас если разрешат буду эксперементировать с аппаратной частью
(вытаскивать дополнительные платы).
В логах отсуствует какой-либо kernel panic. Каким образом посмотреть дамп vga.
Сейчас ситуация такова, что при активной дисковой активности либо
вешается сервер либо перегружается.

to led:
> userspace (в частности, из-за glibc) в "altlinux" не будет нормально
> работать
> с ядром 2.4. AFAIK нужно >= 2.6.8.
> Т.о. вы просто теряете время, пытаясь что-то решить в рассылке:)
Спасибо большое за вашу поддержку. Но все эти проблемы на одном из
работающих блоков российской АЭС.  Мощность на блоке сейчас 104% (так
положено по плану). Система естественно дублирована. Но для разрешения
проблем мне сейчас придется один комплект выключать т.е. система будет
только на одном комплекте. Я то теряю время, но вам лучше помолиться
за меня.

^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи, сбор информации)
  2008-09-01  7:03     ` Yura Kalinichenko
@ 2008-09-08  6:26       ` Владимир
  0 siblings, 0 replies; 15+ messages in thread
From: Владимир @ 2008-09-08  6:26 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

Yura Kalinichenko пишет:
> master altlinux пишет:
>>> Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте 
>>> запустить
>>> их вручную.  Если зависнет, то проверьте железо.
>>>
>>>     
>>
>> Я из запускал несколько раз сразу же после перезагрузки. Ни к чему не 
>> привело.
>> Сегодня вышел в ночь. Все идеально. Ни один сервер не завис. Такое
>> впечатление, что на это появлияли прикладные программы. В пятницу
>> начался большой обмен данными и возможно это привело к падению. Сейчас
>> поставил iozone гоняться. Потом буду память на всякий случай
>> проверять.
>> За любые идеи - предложения - респект...
> У меня тоже куча серверов под M24. Периодически (похоже, после 
> logrotate) очень странно падает syslog: вроде как по всем признакам 
> живой, но в журналы ничего не пишется. При этом в системе начинаются 
> различные плоходиагностируемые глюки. Помогает вот такой скриптец, 
> пускаемый через cron:

Когда сидел на M24 наблюдал подобное достаточно часто. Это происходило в 
условиях, когда
ОЗУ было выбрано почти под ноль и система залезала глубоко в swap. 
Добавление оперативки
положительно сказывалось на uptime до начала глюков. Сейчас у меня 
остался один некритичный
и ненагруженный шлюз под M24. Он никогда не использует swap и не имеет 
подобных проблем.

Возможно что то связано с приоритетом syslogd и его выталкиванием в 
swap, но я с этим не разбирался.
На 4.0 подобного не наблюдаю.


-- 
Vladimir Kholmanov
fmfm@mmascience.ru
fmfm@mma.ru



^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи,сбор информации)
  2008-09-07 20:28         ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
  2008-09-08  6:04           ` master altlinux
@ 2008-09-08  7:20           ` Vladimir V. Kamarzin
  1 sibling, 0 replies; 15+ messages in thread
From: Vladimir V. Kamarzin @ 2008-09-08  7:20 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

>>>>> On 08 Sep 2008 at 02:28 "MS" == Michael Shigorin writes:

>> либо вывода более подробной диагностической информации в
>> случании падения - буду очень признателен.

MS> Насколько понимаю, через обычную или serial-консоль...
MS> если виснет наглухо, сразу ребутается -- тогда не знаю совсем.
MS> (разве если panic=5 какой передаёте, то можно поднять до
MS> минуты-двух, чтоб хоть успеть посмотреть дамп;
MS> vga=что-там-было-для-43-строк тоже полезно)

+ earlyprintk=vga/ttyS0

-- 
vvk

Postfix page on f.i: http://freesource.info/wiki/Dokumentacija/Postfix

Russian Postfix irc: irc.freenode.net #postfix-ru

^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера ( логи , сбор информации )
  2008-09-08  6:04           ` master altlinux
@ 2008-09-08  9:57             ` Sergey
  2008-09-08 10:58             ` [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] Vyatcheslav Perevalov
  2008-09-09  9:17             ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
  2 siblings, 0 replies; 15+ messages in thread
From: Sergey @ 2008-09-08  9:57 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

On Monday 08 September 2008, master altlinux wrote:

> > с ядром 2.4. AFAIK нужно >= 2.6.8.
> > Т.о. вы просто теряете время, пытаясь что-то решить в рассылке:)

> Спасибо большое за вашу поддержку. Но все эти проблемы на одном из
> работающих блоков российской АЭС.

Мда... В менее серьёзных ситуациях следует просто брать новую железку
и поднимать новую систему на ней. Это безотносительно вопроса, следует
ли такие вещи, вообще, на Linux делать...

-- 
С уважением, Сергей
a_s_y@sama.ru


^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера ( логи , сбор информации ) [JT]
  2008-09-08  6:04           ` master altlinux
  2008-09-08  9:57             ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
@ 2008-09-08 10:58             ` Vyatcheslav Perevalov
  2008-09-09  9:17             ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
  2 siblings, 0 replies; 15+ messages in thread
From: Vyatcheslav Perevalov @ 2008-09-08 10:58 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

В сообщении от 8 сентября 2008 master altlinux написал(a):
> Но все эти проблемы на одном из
> работающих блоков российской АЭС.  Мощность на блоке сейчас 104% (так
> положено по плану). Система естественно дублирована. Но для разрешения
> проблем мне сейчас придется один комплект выключать т.е. система будет
> только на одном комплекте. Я то теряю время, но вам лучше помолиться
> за меня.

Надеюсь, это не система регулирования мощности?

-- 
Всего хорошего
		/vip

^ permalink raw reply	[flat|nested] 15+ messages in thread

* Re: [Sysadmins] зависание сервера (логи, сбор информации)
  2008-09-08  6:04           ` master altlinux
  2008-09-08  9:57             ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
  2008-09-08 10:58             ` [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] Vyatcheslav Perevalov
@ 2008-09-09  9:17             ` Michael Shigorin
  2 siblings, 0 replies; 15+ messages in thread
From: Michael Shigorin @ 2008-09-09  9:17 UTC (permalink / raw)
  To: master altlinux; +Cc: community

On Mon, Sep 08, 2008 at 10:04:18AM +0400, master altlinux wrote:
> > PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x?
> Да обязательно. ППО которое работает на данных серверах не
> стабильно функционирует на ядрах 2.6

Ого.  Я бы такому и на 2.4 не слишком доверял.
(это не та j2me случайно?)

> Версии биоса перепроверено и настроено одинаково. На остальных
> серверах где НЕТ raid 5 уровня и работает софтовый райд массив
> (зеркалка) таких проблем нет.  Сейчас если разрешат буду
> эксперементировать с аппаратной частью (вытаскивать
> дополнительные платы).

Есть ли возможность поднять с таким железом стенд
и экспериментировать на нём?

Есть ли возможность использовать не raid5, а raid1/10?

> В логах отсуствует какой-либо kernel panic. Каким образом
> посмотреть дамп vga.

Насколько понимаю, никаким -- только заранее подключить
и задействовать serial console...

> Сейчас ситуация такова, что при активной дисковой активности
> либо вешается сервер либо перегружается.

Попробуйте ещё параметры загрузки (по очереди/вместе, лучше
на стенде -- может измениться распределение прерываний, см.
/proc/interrupts):

noapic
nolapic
pci=noacpi

> Но все эти проблемы на одном из работающих блоков российской
> АЭС.  Мощность на блоке сейчас 104% (так положено по плану).
> Система естественно дублирована. Но для разрешения проблем мне
> сейчас придется один комплект выключать т.е. система будет
> только на одном комплекте.

Лучше такой же стенд -- или заменная система со стенда, которая
прошла тесты и может быть введена вместо резервного комплекта,
пока он в тестировании.

> Я то теряю время, но вам лучше помолиться за меня.

Это имя надо знать... по технической же части -- можете
попробовать связаться с ООО Альт Линукс насчёт диагностики
данной ситуации по отдельному договору (support@).

Также замечу, что у некоторых коллег по конторе (magic.kiev.ua)
есть опыт разработки отказоустойчивого ПО, которое вроде и
посейчас работает как минимум на одной украинской АЭС.
Опытные руки по аппаратному обеспечению тоже есть.
Если надо -- обращайтесь.

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 15+ messages in thread

end of thread, other threads:[~2008-09-09  9:17 UTC | newest]

Thread overview: 15+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2008-08-31  7:27 ` [Sysadmins] зависание сервера (логи, сбор информации) Max Ivanov
2008-08-31  9:03 ` Dmitry V. Levin
2008-09-01  2:59   ` master altlinux
2008-09-01  7:03     ` Yura Kalinichenko
2008-09-08  6:26       ` Владимир
2008-09-03 18:52     ` Michael Shigorin
2008-09-06  9:01       ` master altlinux
2008-09-06 15:18         ` [Sysadmins] зависание сервера ( логи , сбор информации ) Led
2008-09-07 20:28         ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
2008-09-08  6:04           ` master altlinux
2008-09-08  9:57             ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
2008-09-08 10:58             ` [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] Vyatcheslav Perevalov
2008-09-09  9:17             ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
2008-09-08  7:20           ` [Sysadmins] зависание сервера (логи,сбор информации) Vladimir V. Kamarzin
2008-09-02  7:36 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey

ALT Linux sysadmins discussion

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sysadmins/0 sysadmins/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sysadmins sysadmins/ http://lore.altlinux.org/sysadmins \
		sysadmins@lists.altlinux.org sysadmins@lists.altlinux.ru sysadmins@lists.altlinux.com
	public-inbox-index sysadmins

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sysadmins


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git