* Re: [Sysadmins] зависание сервера (логи, сбор информации)
@ 2008-08-31 7:27 ` Max Ivanov
2008-08-31 9:03 ` Dmitry V. Levin
2008-09-02 7:36 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
2 siblings, 0 replies; 15+ messages in thread
From: Max Ivanov @ 2008-08-31 7:27 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
У меня на одном сервере весь /etc/tcb чистился в 4:02. Все папки на
месте, а файлов в них нет, только папка рута оставалась. отчего и
почему так и не разобарсля, тоже по крону через su разные проги
пускались на вид безобидные, решил убиением все кроновских процессов с
su. Сервер на программном raid1
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
2008-08-31 7:27 ` [Sysadmins] зависание сервера (логи, сбор информации) Max Ivanov
@ 2008-08-31 9:03 ` Dmitry V. Levin
2008-09-01 2:59 ` master altlinux
2008-09-02 7:36 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
2 siblings, 1 reply; 15+ messages in thread
From: Dmitry V. Levin @ 2008-08-31 9:03 UTC (permalink / raw)
To: sysadmins
[-- Attachment #1: Type: text/plain, Size: 1592 bytes --]
On Sun, Aug 31, 2008 at 09:48:03AM +0400, master altlinux wrote:
> Здравствуйте!
>
> На серверах (7 Штук) работает altlinux master 2.4. Естественно от самого
> мастера там мало что осталось (большинство пакетов обновлено, ядро собрано
> 2.4.36).
> Несколько недель все работало нормально. Теперь каждую ночь в 4:02 идет
> зависание двух серверов.
> И вот такие чудные логи:
>
> Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session opened for cacheman by
> (uid=0)
> Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded
> Aug 31 04:02:03 vkufs1_11 last message repeated 3 times
> Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session closed for cacheman
> Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded
> Aug 31 06:02:22 vkufs1_11 syslogd 1.4.1: restart.
> Aug 31 06:02:22 vkufs1_11 syslogd: syslogd startup succeeded
> Aug 31 06:02:22 vkufs1_11 kernel: klogd 1.4.1, log source = /proc/kmsg
> started.
> Aug 31 06:02:22 vkufs1_11 klogd: klogd startup succeeded
> Aug 31 06:02:22 vkufs1_11 kernel: Inspecting
> /boot/System.map-2.4.36.arkhangel
> Aug 31 06:02:22 vkufs1_11 kernel: Loaded 19891 symbols from
>
>
> Причем зависание идет на обоих серверах ровно ровно в одно и тоже время.
> Начал анализировать проблему. Оказалось в это время выполняются задания
> anacron (лежат в /etc/cron.daily)
> logrotate
> cyrus-imapd
> makewhatis
> stmpclean
> sysstat
> 000anacron
> osec
> updatedb
Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте запустить
их вручную. Если зависнет, то проверьте железо.
--
ldv
[-- Attachment #2: Type: application/pgp-signature, Size: 197 bytes --]
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
2008-08-31 9:03 ` Dmitry V. Levin
@ 2008-09-01 2:59 ` master altlinux
2008-09-01 7:03 ` Yura Kalinichenko
2008-09-03 18:52 ` Michael Shigorin
0 siblings, 2 replies; 15+ messages in thread
From: master altlinux @ 2008-09-01 2:59 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
> Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте запустить
> их вручную. Если зависнет, то проверьте железо.
>
Я из запускал несколько раз сразу же после перезагрузки. Ни к чему не привело.
Сегодня вышел в ночь. Все идеально. Ни один сервер не завис. Такое
впечатление, что на это появлияли прикладные программы. В пятницу
начался большой обмен данными и возможно это привело к падению. Сейчас
поставил iozone гоняться. Потом буду память на всякий случай
проверять.
За любые идеи - предложения - респект...
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
2008-09-01 2:59 ` master altlinux
@ 2008-09-01 7:03 ` Yura Kalinichenko
2008-09-08 6:26 ` Владимир
2008-09-03 18:52 ` Michael Shigorin
1 sibling, 1 reply; 15+ messages in thread
From: Yura Kalinichenko @ 2008-09-01 7:03 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
master altlinux пишет:
>> Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте запустить
>> их вручную. Если зависнет, то проверьте железо.
>>
>>
>
> Я из запускал несколько раз сразу же после перезагрузки. Ни к чему не привело.
> Сегодня вышел в ночь. Все идеально. Ни один сервер не завис. Такое
> впечатление, что на это появлияли прикладные программы. В пятницу
> начался большой обмен данными и возможно это привело к падению. Сейчас
> поставил iozone гоняться. Потом буду память на всякий случай
> проверять.
> За любые идеи - предложения - респект...
У меня тоже куча серверов под M24. Периодически (похоже, после
logrotate) очень странно падает syslog: вроде как по всем признакам
живой, но в журналы ничего не пишется. При этом в системе начинаются
различные плоходиагностируемые глюки. Помогает вот такой скриптец,
пускаемый через cron:
#!/bin/sh
addr=root
# максимально допустимый промежуток времени отсутствия записей в syslog в секундах
MAX_DELTA_SEC=3600
/etc/init.d/syslogd status >/dev/null 2>&1
status=$?
if [ $status -eq 0 ]; then
# Получим дату/время из последней записи в syslog
last_log_date=`tail -n 1 /var/log/messages | awk '{printf "%s %s %s",$1,$2,$3}'`
if [ -n "$last_log_date" ]; then
# Преобразуем в секунды с 00:00:00 1970-01-01 UTC
last_log_date="`date --date="$last_log_date" +%s`"
current_date="`date +%s`"
delta=`expr $current_date - $last_log_date`
if [ $delta -gt $MAX_DELTA_SEC ]; then
status=2
fi
fi
fi
if [ $status -ne 0 ]; then
echo "syslogd is down. Try restart..." | mail -s "ERROR syslogd" $addr
/etc/init.d/syslogd restart >/dev/null 2>&1
fi
--
SY,
Yura Kalinichenko
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера ( логи , сбор информации )
2008-08-31 7:27 ` [Sysadmins] зависание сервера (логи, сбор информации) Max Ivanov
2008-08-31 9:03 ` Dmitry V. Levin
@ 2008-09-02 7:36 ` Sergey
2 siblings, 0 replies; 15+ messages in thread
From: Sergey @ 2008-09-02 7:36 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
On Sunday 31 August 2008, master altlinux wrote:
> И вот такие чудные логи:
Что касается рестартов syslog/klog, это logrotate...
--
С уважением, Сергей
a_s_y@sama.ru
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
2008-09-01 2:59 ` master altlinux
2008-09-01 7:03 ` Yura Kalinichenko
@ 2008-09-03 18:52 ` Michael Shigorin
2008-09-06 9:01 ` master altlinux
1 sibling, 1 reply; 15+ messages in thread
From: Michael Shigorin @ 2008-09-03 18:52 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
On Mon, Sep 01, 2008 at 06:59:42AM +0400, master altlinux wrote:
> За любые идеи - предложения - респект...
Ну если за любые...
Мне ядра сборки vsu@ нравятся определённо больше, чем своей.
Если есть возможность -- проведите текущее обслуживание систем,
начиная с пылесоса по корпусу, кулерам и памяти.
Просмотрите глазами конденсаторы -- не вздулись ли какие.
Прогоните несколько часов (хоть полчаса) memtest86+, а по дискам
-- bonnie++. После smartctl -a, если это программный RAID.
Ещё могу предложить для анализа тенденций использовать collectd
в клиент-серверном варианте (чтоб все байтики статистики, что
успеет засунуть в сеть, были сохранены) -- можете попробовать
сбэкпортить на M24 пакет из Daedalus, который всё никак не
доберётся после доработки до Sisyphus и в бранчи.
PS: как задумаетесь перетаскивать системы -- проверено
засовывание целиком в OpenVZ-контейнер под Server 4.0
с последующей постепенной/управляемой/откатывабельной
миграцией сервисов на 4.0.
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
2008-09-03 18:52 ` Michael Shigorin
@ 2008-09-06 9:01 ` master altlinux
2008-09-06 15:18 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Led
2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
0 siblings, 2 replies; 15+ messages in thread
From: master altlinux @ 2008-09-06 9:01 UTC (permalink / raw)
To: shigorin, ALT Linux sysadmin discuss
Спасибо всем большое...
Добился определенных результатов.
1. На сервере кроме ОС работает ППО (оно иногда пишет небольшие объемы
информации - в час по 50-100 мб.) Поставил iozone тестироваться
вместе с ППО - через 2.5 часа сервер повис. Потом через сутки опять
iozone был поставлен но без ППО сервер выдержал.
2. Начал эксперементировать: работает ППО и запускаю скрипт obsec -
перезагрузка системы. Работает ППО - и запускаю скрипт updatedb -
система зависает.
3. Вчера вообще пипец начался: операторы по sftp копируют файлы с
сервера и он стабильно перегружается.
2Michael Shigorin: мне тоже нравятся ваши (ну в смысле altlinux)
сборки ядра. Но ваша компания отказалась поддерживать ветку ядра 2.4 и
поэтому приходится собирать самому. Пропылесосить это хорошее идея,
только почему они вместе падают и зависают.
Я считаю дело в дисковой подсистеме точнее в драйвере для raid массива
(aacraid).
Вот распечатка lsmod:
Module Size Used by Not tainted
sg 29468 0 (autoclean)
sr_mod 14320 0 (autoclean)
cdrom 27552 0 (autoclean) [sr_mod]
floppy 48056 0 (autoclean)
usb-storage 26040 0
autofs4 8532 0 (autoclean)
usb-uhci 21996 0 (unused)
ehci-hcd 16872 0 (unused)
e1000 97640 4 (autoclean)
ide-scsi 9296 0
ipmi_kcs_drv 8333 1
ipmi_devintf 3592 0 (unused)
w83627hf 14332 0 (unused)
bmcsensors 15937 0 (unused)
i2c-proc 5892 0 [w83627hf bmcsensors]
i2c-ipmi 2028 0 (unused)
ipmi_msghandler 14824 0 [ipmi_kcs_drv ipmi_devintf i2c-ipmi]
i2c-isa 808 0 (unused)
i2c-i801 4664 0 (unused)
i2c-core 15172 0 [w83627hf bmcsensors i2c-proc
i2c-ipmi i2c-isa i2c-i801]
rtc 6780 0 (autoclean)
aacraid 30212 4
sd_mod 10832 8
А вот распечатка lspci -v:
00:00.0 Host bridge: Intel Corp.: Unknown device 25d8 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, fast devsel, latency 0, IRQ 16
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
Capabilities: [6c] #10 [0041]
00:02.0 PCI bridge: Intel Corp.: Unknown device 25f7 (rev b1) (prog-if
00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=01, subordinate=07, sec-latency=0
I/O behind bridge: 00002000-00003fff
Memory behind bridge: d8000000-d86fffff
Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
Capabilities: [6c] #10 [0041]
00:04.0 PCI bridge: Intel Corp.: Unknown device 25f8 (rev b1) (prog-if
00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=08, subordinate=08, sec-latency=0
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
Capabilities: [6c] #10 [0141]
00:06.0 PCI bridge: Intel Corp.: Unknown device 25f9 (rev b1) (prog-if
00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=09, subordinate=09, sec-latency=0
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable-
Capabilities: [6c] #10 [0141]
00:08.0 System peripheral: Intel Corp.: Unknown device 1a38 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, fast devsel, latency 0, IRQ 16
Memory at fe700000 (64-bit, non-prefetchable) [size=1K]
Capabilities: [50] Power Management version 2
Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-
Capabilities: [6c] #10 [0091]
00:10.0 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel
00:10.1 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel
00:10.2 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel
00:11.0 Host bridge: Intel Corp.: Unknown device 25f1 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel
00:13.0 Host bridge: Intel Corp.: Unknown device 25f3 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel
00:15.0 Host bridge: Intel Corp.: Unknown device 25f5 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel
00:16.0 Host bridge: Intel Corp.: Unknown device 25f6 (rev b1)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: fast devsel
00:1c.0 PCI bridge: Intel Corp.: Unknown device 2690 (rev 09) (prog-if
00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=0a, subordinate=0a, sec-latency=0
Capabilities: [40] #10 [0141]
Capabilities: [80] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-
Capabilities: [90] #0d [0000]
Capabilities: [a0] Power Management version 2
00:1d.0 USB Controller: Intel Corp.: Unknown device 2688 (rev 09)
(prog-if 00 [UHCI])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 17
I/O ports at 1800 [size=32]
00:1d.1 USB Controller: Intel Corp.: Unknown device 2689 (rev 09)
(prog-if 00 [UHCI])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 19
I/O ports at 1820 [size=32]
00:1d.2 USB Controller: Intel Corp.: Unknown device 268a (rev 09)
(prog-if 00 [UHCI])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 18
I/O ports at 1840 [size=32]
00:1d.7 USB Controller: Intel Corp.: Unknown device 268c (rev 09)
(prog-if 20 [EHCI])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 17
Memory at d8a00000 (32-bit, non-prefetchable) [size=1K]
Capabilities: [50] Power Management version 2
Capabilities: [58] #0a [20a0]
00:1e.0 PCI bridge: Intel Corp. 82801BA/CA/DB/EB/ER Hub interface to
PCI Bridge (rev d9) (prog-if 01 [Subtractive decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=00, secondary=0b, subordinate=0b, sec-latency=32
I/O behind bridge: 00004000-00004fff
Memory behind bridge: d8700000-d87fffff
Prefetchable memory behind bridge: 00000000d0000000-00000000d7f00000
Capabilities: [50] #0d [0000]
00:1f.0 ISA bridge: Intel Corp.: Unknown device 2670 (rev 09)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0
00:1f.1 IDE interface: Intel Corp.: Unknown device 269e (rev 09)
(prog-if 8a [Master SecP PriP])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, medium devsel, latency 0, IRQ 18
I/O ports at <unassigned>
I/O ports at <unassigned>
I/O ports at <unassigned>
I/O ports at <unassigned>
I/O ports at 1860 [size=16]
00:1f.3 SMBus: Intel Corp.: Unknown device 269b (rev 09)
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: medium devsel, IRQ 19
I/O ports at 1100 [size=32]
01:00.0 PCI bridge: Intel Corp.: Unknown device 3500 (rev 01) (prog-if
00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=01, secondary=02, subordinate=06, sec-latency=0
I/O behind bridge: 00002000-00003fff
Memory behind bridge: d8000000-d85fffff
Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
Capabilities: [44] #10 [0051]
Capabilities: [70] Power Management version 2
Capabilities: [80] #0d [0000]
01:00.3 PCI bridge: Intel Corp.: Unknown device 350c (rev 01) (prog-if
00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=01, secondary=07, subordinate=07, sec-latency=64
Capabilities: [44] #10 [0071]
Capabilities: [6c] Power Management version 2
Capabilities: [80] #0d [0000]
Capabilities: [d8]
02:00.0 PCI bridge: Intel Corp.: Unknown device 3510 (rev 01) (prog-if
00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=02, secondary=03, subordinate=05, sec-latency=0
I/O behind bridge: 00002000-00002fff
Memory behind bridge: d8000000-d84fffff
Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
Capabilities: [44] #10 [0061]
Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [70] Power Management version 2
Capabilities: [80] #0d [0000]
02:02.0 PCI bridge: Intel Corp.: Unknown device 3518 (rev 01) (prog-if
00 [Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=02, secondary=06, subordinate=06, sec-latency=0
I/O behind bridge: 00003000-00003fff
Memory behind bridge: d8500000-d85fffff
Capabilities: [44] #10 [0061]
Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [70] Power Management version 2
Capabilities: [80] #0d [0000]
03:00.0 PCI bridge: Intel Corp. PCI Bridge Hub A (rev 09) (prog-if 00
[Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=03, secondary=04, subordinate=04, sec-latency=64
Memory behind bridge: d8000000-d83fffff
Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000
Capabilities: [44] #10 [0071]
Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [6c] Power Management version 2
Capabilities: [d8]
03:00.2 PCI bridge: Intel Corp. PCI Bridge Hub B (rev 09) (prog-if 00
[Normal decode])
Flags: bus master, fast devsel, latency 0
Bus: primary=03, secondary=05, subordinate=05, sec-latency=64
I/O behind bridge: 00002000-00002fff
Memory behind bridge: d8400000-d84fffff
Capabilities: [44] #10 [0071]
Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [6c] Power Management version 2
Capabilities: [d8]
04:01.0 RAID bus controller: Adaptec AAC-RAID (rev 02)
Subsystem: Adaptec ASR-2020S PCI-X ZCR (Skyhawk)
Flags: bus master, stepping, 66Mhz, medium devsel, latency 32, IRQ 16
Memory at d8200000 (64-bit, non-prefetchable) [size=2M]
Memory at d8000000 (32-bit, non-prefetchable) [size=2M]
Memory at c0000000 (32-bit, prefetchable) [size=256M]
Expansion ROM at <unassigned> [disabled] [size=32K]
Capabilities: [c0] Power Management version 2
Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/1 Enable-
Capabilities: [e0] PCI-X non-bridge device.
05:01.0 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet
Controller (rev 03)
Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection
Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 16
Memory at d8480000 (64-bit, non-prefetchable) [size=128K]
Memory at d8400000 (64-bit, non-prefetchable) [size=256K]
I/O ports at 2000 [size=64]
Expansion ROM at <unassigned> [disabled] [size=256K]
Capabilities: [dc] Power Management version 2
Capabilities: [e4] Capabilities: [f0] Message Signalled Interrupts:
64bit+ Queue=0/0 Enable-
05:01.1 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet
Controller (rev 03)
Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection
Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 17
Memory at d84a0000 (64-bit, non-prefetchable) [size=128K]
Memory at d8440000 (64-bit, non-prefetchable) [size=256K]
I/O ports at 2040 [size=64]
Expansion ROM at <unassigned> [disabled] [size=256K]
Capabilities: [dc] Power Management version 2
Capabilities: [e4] Capabilities: [f0] Message Signalled Interrupts:
64bit+ Queue=0/0 Enable-
06:00.0 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01)
Subsystem: Super Micro Computer Inc: Unknown device 0000
Flags: bus master, fast devsel, latency 0, IRQ 18
Memory at d8500000 (32-bit, non-prefetchable) [size=128K]
I/O ports at 3000 [size=32]
Capabilities: [c8] Power Management version 2
Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [e0] #10 [0001]
06:00.1 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01)
Subsystem: Super Micro Computer Inc: Unknown device 0000
Flags: bus master, fast devsel, latency 0, IRQ 19
Memory at d8520000 (32-bit, non-prefetchable) [size=128K]
I/O ports at 3020 [size=32]
Capabilities: [c8] Power Management version 2
Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable-
Capabilities: [e0] #10 [0001]
0b:01.0 VGA compatible controller: ATI Technologies Inc: Unknown
device 515e (rev 02) (prog-if 00 [VGA])
Subsystem: Super Micro Computer Inc: Unknown device 8080
Flags: bus master, stepping, fast Back2Back, medium devsel, latency 66, IRQ 18
Memory at d0000000 (32-bit, prefetchable) [size=128M]
I/O ports at 4000 [size=256]
Memory at d8700000 (32-bit, non-prefetchable) [size=64K]
Expansion ROM at <unassigned> [disabled] [size=128K]
Capabilities: [50] Power Management version 2
В свое время на других объектах я собирал с этими железками и
драйверами на ядрах 2.4.32 и 2.4.35 и все работало без проблем.
Очень жду совета. Сейчас ситуация очень критическая. Если будут советы
по пересборке ядра либо вывода более подробной диагностической
информации в случании падения - буду очень признателен.
On 9/3/08, Michael Shigorin <mike@osdn.org.ua> wrote:
> On Mon, Sep 01, 2008 at 06:59:42AM +0400, master altlinux wrote:
>> За любые идеи - предложения - респект...
>
> Ну если за любые...
>
> Мне ядра сборки vsu@ нравятся определённо больше, чем своей.
>
> Если есть возможность -- проведите текущее обслуживание систем,
> начиная с пылесоса по корпусу, кулерам и памяти.
>
> Просмотрите глазами конденсаторы -- не вздулись ли какие.
>
> Прогоните несколько часов (хоть полчаса) memtest86+, а по дискам
> -- bonnie++. После smartctl -a, если это программный RAID.
>
> Ещё могу предложить для анализа тенденций использовать collectd
> в клиент-серверном варианте (чтоб все байтики статистики, что
> успеет засунуть в сеть, были сохранены) -- можете попробовать
> сбэкпортить на M24 пакет из Daedalus, который всё никак не
> доберётся после доработки до Sisyphus и в бранчи.
>
> PS: как задумаетесь перетаскивать системы -- проверено
> засовывание целиком в OpenVZ-контейнер под Server 4.0
> с последующей постепенной/управляемой/откатывабельной
> миграцией сервисов на 4.0.
>
> --
> ---- WBR, Michael Shigorin <mike@altlinux.ru>
> ------ Linux.Kiev http://www.linux.kiev.ua/
> _______________________________________________
> Sysadmins mailing list
> Sysadmins@lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/sysadmins
>
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера ( логи , сбор информации )
2008-09-06 9:01 ` master altlinux
@ 2008-09-06 15:18 ` Led
2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
1 sibling, 0 replies; 15+ messages in thread
From: Led @ 2008-09-06 15:18 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
On Saturday, 06 September 2008 12:01:24 master altlinux wrote:
> Спасибо всем большое...
>
> Добился определенных результатов.
> 1. На сервере кроме ОС работает ППО (оно иногда пишет небольшие объемы
> информации - в час по 50-100 мб.) Поставил iozone тестироваться
> вместе с ППО - через 2.5 часа сервер повис. Потом через сутки опять
> iozone был поставлен но без ППО сервер выдержал.
>
> 2. Начал эксперементировать: работает ППО и запускаю скрипт obsec -
> перезагрузка системы. Работает ППО - и запускаю скрипт updatedb -
> система зависает.
>
> 3. Вчера вообще пипец начался: операторы по sftp копируют файлы с
> сервера и он стабильно перегружается.
>
> 2Michael Shigorin: мне тоже нравятся ваши (ну в смысле altlinux)
> сборки ядра. Но ваша компания отказалась поддерживать ветку ядра 2.4 и
> поэтому приходится собирать самому. Пропылесосить это хорошее идея,
> только почему они вместе падают и зависают.
> Я считаю дело в дисковой подсистеме точнее в драйвере для raid массива
> (aacraid).
userspace (в частности, из-за glibc) в "altlinux" не будет нормально работать
с ядром 2.4. AFAIK нужно >= 2.6.8.
Т.о. вы просто теряете время, пытаясь что-то решить в рассылке:)
--
Led
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
2008-09-06 9:01 ` master altlinux
2008-09-06 15:18 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Led
@ 2008-09-07 20:28 ` Michael Shigorin
2008-09-08 6:04 ` master altlinux
2008-09-08 7:20 ` [Sysadmins] зависание сервера (логи,сбор информации) Vladimir V. Kamarzin
1 sibling, 2 replies; 15+ messages in thread
From: Michael Shigorin @ 2008-09-07 20:28 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
On Sat, Sep 06, 2008 at 01:01:24PM +0400, master altlinux wrote:
> 2Michael Shigorin: мне тоже нравятся ваши (ну в смысле altlinux)
> сборки ядра. Но ваша компания отказалась поддерживать ветку
> ядра 2.4 и поэтому приходится собирать самому. Пропылесосить
> это хорошее идея, только почему они вместе падают и зависают.
Потому что нагрузка по схожему crontab может приводить
неустойчивые физически системы к почти синхронному слёту.
> Я считаю дело в дисковой подсистеме точнее в драйвере для raid
> массива (aacraid).
Да вроде про них ничего особо плохого не пробегало... e.g.
http://lists.altlinux.ru/pipermail/hardware/2005-January/003253.html
-- если б были известные грабли, vsu@ бы наверняка хоть словом
обмолвился, поскольку в остальном характеристика краткая,
но скорее положительная.
> В свое время на других объектах я собирал с этими железками и
> драйверами на ядрах 2.4.32 и 2.4.35 и все работало без проблем.
Своей же сборки? Если да -- я бы искал проблему в другом
или сравнивал .config (BTW ещё стоит сравнить версии BIOS
мамок и контроллеров).
> либо вывода более подробной диагностической информации в
> случании падения - буду очень признателен.
Насколько понимаю, через обычную или serial-консоль...
если виснет наглухо, сразу ребутается -- тогда не знаю совсем.
(разве если panic=5 какой передаёте, то можно поднять до
минуты-двух, чтоб хоть успеть посмотреть дамп;
vga=что-там-было-для-43-строк тоже полезно)
PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x?
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
@ 2008-09-08 6:04 ` master altlinux
2008-09-08 9:57 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
` (2 more replies)
2008-09-08 7:20 ` [Sysadmins] зависание сервера (логи,сбор информации) Vladimir V. Kamarzin
1 sibling, 3 replies; 15+ messages in thread
From: master altlinux @ 2008-09-08 6:04 UTC (permalink / raw)
To: shigorin, ALT Linux sysadmin discuss
>
> PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x?
>
Да обязательно. ППО которое работает на данных серверах не стабильно
функционирует на ядрах 2.6
Версии биоса перепроверено и настроено одинаково. На остальных
серверах где НЕТ raid 5 уровня и работает софтовый райд массив
(зеркалка) таких проблем нет.
Сейчас если разрешат буду эксперементировать с аппаратной частью
(вытаскивать дополнительные платы).
В логах отсуствует какой-либо kernel panic. Каким образом посмотреть дамп vga.
Сейчас ситуация такова, что при активной дисковой активности либо
вешается сервер либо перегружается.
to led:
> userspace (в частности, из-за glibc) в "altlinux" не будет нормально
> работать
> с ядром 2.4. AFAIK нужно >= 2.6.8.
> Т.о. вы просто теряете время, пытаясь что-то решить в рассылке:)
Спасибо большое за вашу поддержку. Но все эти проблемы на одном из
работающих блоков российской АЭС. Мощность на блоке сейчас 104% (так
положено по плану). Система естественно дублирована. Но для разрешения
проблем мне сейчас придется один комплект выключать т.е. система будет
только на одном комплекте. Я то теряю время, но вам лучше помолиться
за меня.
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
2008-09-01 7:03 ` Yura Kalinichenko
@ 2008-09-08 6:26 ` Владимир
0 siblings, 0 replies; 15+ messages in thread
From: Владимир @ 2008-09-08 6:26 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
Yura Kalinichenko пишет:
> master altlinux пишет:
>>> Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте
>>> запустить
>>> их вручную. Если зависнет, то проверьте железо.
>>>
>>>
>>
>> Я из запускал несколько раз сразу же после перезагрузки. Ни к чему не
>> привело.
>> Сегодня вышел в ночь. Все идеально. Ни один сервер не завис. Такое
>> впечатление, что на это появлияли прикладные программы. В пятницу
>> начался большой обмен данными и возможно это привело к падению. Сейчас
>> поставил iozone гоняться. Потом буду память на всякий случай
>> проверять.
>> За любые идеи - предложения - респект...
> У меня тоже куча серверов под M24. Периодически (похоже, после
> logrotate) очень странно падает syslog: вроде как по всем признакам
> живой, но в журналы ничего не пишется. При этом в системе начинаются
> различные плоходиагностируемые глюки. Помогает вот такой скриптец,
> пускаемый через cron:
Когда сидел на M24 наблюдал подобное достаточно часто. Это происходило в
условиях, когда
ОЗУ было выбрано почти под ноль и система залезала глубоко в swap.
Добавление оперативки
положительно сказывалось на uptime до начала глюков. Сейчас у меня
остался один некритичный
и ненагруженный шлюз под M24. Он никогда не использует swap и не имеет
подобных проблем.
Возможно что то связано с приоритетом syslogd и его выталкиванием в
swap, но я с этим не разбирался.
На 4.0 подобного не наблюдаю.
--
Vladimir Kholmanov
fmfm@mmascience.ru
fmfm@mma.ru
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи,сбор информации)
2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
2008-09-08 6:04 ` master altlinux
@ 2008-09-08 7:20 ` Vladimir V. Kamarzin
1 sibling, 0 replies; 15+ messages in thread
From: Vladimir V. Kamarzin @ 2008-09-08 7:20 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
>>>>> On 08 Sep 2008 at 02:28 "MS" == Michael Shigorin writes:
>> либо вывода более подробной диагностической информации в
>> случании падения - буду очень признателен.
MS> Насколько понимаю, через обычную или serial-консоль...
MS> если виснет наглухо, сразу ребутается -- тогда не знаю совсем.
MS> (разве если panic=5 какой передаёте, то можно поднять до
MS> минуты-двух, чтоб хоть успеть посмотреть дамп;
MS> vga=что-там-было-для-43-строк тоже полезно)
+ earlyprintk=vga/ttyS0
--
vvk
Postfix page on f.i: http://freesource.info/wiki/Dokumentacija/Postfix
Russian Postfix irc: irc.freenode.net #postfix-ru
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера ( логи , сбор информации )
2008-09-08 6:04 ` master altlinux
@ 2008-09-08 9:57 ` Sergey
2008-09-08 10:58 ` [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] Vyatcheslav Perevalov
2008-09-09 9:17 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
2 siblings, 0 replies; 15+ messages in thread
From: Sergey @ 2008-09-08 9:57 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
On Monday 08 September 2008, master altlinux wrote:
> > с ядром 2.4. AFAIK нужно >= 2.6.8.
> > Т.о. вы просто теряете время, пытаясь что-то решить в рассылке:)
> Спасибо большое за вашу поддержку. Но все эти проблемы на одном из
> работающих блоков российской АЭС.
Мда... В менее серьёзных ситуациях следует просто брать новую железку
и поднимать новую систему на ней. Это безотносительно вопроса, следует
ли такие вещи, вообще, на Linux делать...
--
С уважением, Сергей
a_s_y@sama.ru
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера ( логи , сбор информации ) [JT]
2008-09-08 6:04 ` master altlinux
2008-09-08 9:57 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
@ 2008-09-08 10:58 ` Vyatcheslav Perevalov
2008-09-09 9:17 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
2 siblings, 0 replies; 15+ messages in thread
From: Vyatcheslav Perevalov @ 2008-09-08 10:58 UTC (permalink / raw)
To: ALT Linux sysadmin discuss
В сообщении от 8 сентября 2008 master altlinux написал(a):
> Но все эти проблемы на одном из
> работающих блоков российской АЭС. Мощность на блоке сейчас 104% (так
> положено по плану). Система естественно дублирована. Но для разрешения
> проблем мне сейчас придется один комплект выключать т.е. система будет
> только на одном комплекте. Я то теряю время, но вам лучше помолиться
> за меня.
Надеюсь, это не система регулирования мощности?
--
Всего хорошего
/vip
^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации)
2008-09-08 6:04 ` master altlinux
2008-09-08 9:57 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
2008-09-08 10:58 ` [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] Vyatcheslav Perevalov
@ 2008-09-09 9:17 ` Michael Shigorin
2 siblings, 0 replies; 15+ messages in thread
From: Michael Shigorin @ 2008-09-09 9:17 UTC (permalink / raw)
To: master altlinux; +Cc: community
On Mon, Sep 08, 2008 at 10:04:18AM +0400, master altlinux wrote:
> > PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x?
> Да обязательно. ППО которое работает на данных серверах не
> стабильно функционирует на ядрах 2.6
Ого. Я бы такому и на 2.4 не слишком доверял.
(это не та j2me случайно?)
> Версии биоса перепроверено и настроено одинаково. На остальных
> серверах где НЕТ raid 5 уровня и работает софтовый райд массив
> (зеркалка) таких проблем нет. Сейчас если разрешат буду
> эксперементировать с аппаратной частью (вытаскивать
> дополнительные платы).
Есть ли возможность поднять с таким железом стенд
и экспериментировать на нём?
Есть ли возможность использовать не raid5, а raid1/10?
> В логах отсуствует какой-либо kernel panic. Каким образом
> посмотреть дамп vga.
Насколько понимаю, никаким -- только заранее подключить
и задействовать serial console...
> Сейчас ситуация такова, что при активной дисковой активности
> либо вешается сервер либо перегружается.
Попробуйте ещё параметры загрузки (по очереди/вместе, лучше
на стенде -- может измениться распределение прерываний, см.
/proc/interrupts):
noapic
nolapic
pci=noacpi
> Но все эти проблемы на одном из работающих блоков российской
> АЭС. Мощность на блоке сейчас 104% (так положено по плану).
> Система естественно дублирована. Но для разрешения проблем мне
> сейчас придется один комплект выключать т.е. система будет
> только на одном комплекте.
Лучше такой же стенд -- или заменная система со стенда, которая
прошла тесты и может быть введена вместо резервного комплекта,
пока он в тестировании.
> Я то теряю время, но вам лучше помолиться за меня.
Это имя надо знать... по технической же части -- можете
попробовать связаться с ООО Альт Линукс насчёт диагностики
данной ситуации по отдельному договору (support@).
Также замечу, что у некоторых коллег по конторе (magic.kiev.ua)
есть опыт разработки отказоустойчивого ПО, которое вроде и
посейчас работает как минимум на одной украинской АЭС.
Опытные руки по аппаратному обеспечению тоже есть.
Если надо -- обращайтесь.
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 15+ messages in thread
end of thread, other threads:[~2008-09-09 9:17 UTC | newest]
Thread overview: 15+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2008-08-31 7:27 ` [Sysadmins] зависание сервера (логи, сбор информации) Max Ivanov
2008-08-31 9:03 ` Dmitry V. Levin
2008-09-01 2:59 ` master altlinux
2008-09-01 7:03 ` Yura Kalinichenko
2008-09-08 6:26 ` Владимир
2008-09-03 18:52 ` Michael Shigorin
2008-09-06 9:01 ` master altlinux
2008-09-06 15:18 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Led
2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
2008-09-08 6:04 ` master altlinux
2008-09-08 9:57 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
2008-09-08 10:58 ` [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] Vyatcheslav Perevalov
2008-09-09 9:17 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin
2008-09-08 7:20 ` [Sysadmins] зависание сервера (логи,сбор информации) Vladimir V. Kamarzin
2008-09-02 7:36 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
ALT Linux sysadmins discussion
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/sysadmins/0 sysadmins/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 sysadmins sysadmins/ http://lore.altlinux.org/sysadmins \
sysadmins@lists.altlinux.org sysadmins@lists.altlinux.ru sysadmins@lists.altlinux.com
public-inbox-index sysadmins
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.sysadmins
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git