* Re: [Sysadmins] зависание сервера (логи, сбор информации) @ 2008-08-31 7:27 ` Max Ivanov 2008-08-31 9:03 ` Dmitry V. Levin 2008-09-02 7:36 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey 2 siblings, 0 replies; 15+ messages in thread From: Max Ivanov @ 2008-08-31 7:27 UTC (permalink / raw) To: ALT Linux sysadmin discuss У меня на одном сервере весь /etc/tcb чистился в 4:02. Все папки на месте, а файлов в них нет, только папка рута оставалась. отчего и почему так и не разобарсля, тоже по крону через su разные проги пускались на вид безобидные, решил убиением все кроновских процессов с su. Сервер на программном raid1 ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации) 2008-08-31 7:27 ` [Sysadmins] зависание сервера (логи, сбор информации) Max Ivanov @ 2008-08-31 9:03 ` Dmitry V. Levin 2008-09-01 2:59 ` master altlinux 2008-09-02 7:36 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey 2 siblings, 1 reply; 15+ messages in thread From: Dmitry V. Levin @ 2008-08-31 9:03 UTC (permalink / raw) To: sysadmins [-- Attachment #1: Type: text/plain, Size: 1592 bytes --] On Sun, Aug 31, 2008 at 09:48:03AM +0400, master altlinux wrote: > Здравствуйте! > > На серверах (7 Штук) работает altlinux master 2.4. Естественно от самого > мастера там мало что осталось (большинство пакетов обновлено, ядро собрано > 2.4.36). > Несколько недель все работало нормально. Теперь каждую ночь в 4:02 идет > зависание двух серверов. > И вот такие чудные логи: > > Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session opened for cacheman by > (uid=0) > Aug 31 04:02:02 vkufs1_11 syslogd: syslogd shutdown succeeded > Aug 31 04:02:03 vkufs1_11 last message repeated 3 times > Aug 31 04:02:05 vkufs1_11 pam_tcb[9829]: su: Session closed for cacheman > Aug 31 04:02:03 vkufs1_11 syslogd: syslogd shutdown succeeded > Aug 31 06:02:22 vkufs1_11 syslogd 1.4.1: restart. > Aug 31 06:02:22 vkufs1_11 syslogd: syslogd startup succeeded > Aug 31 06:02:22 vkufs1_11 kernel: klogd 1.4.1, log source = /proc/kmsg > started. > Aug 31 06:02:22 vkufs1_11 klogd: klogd startup succeeded > Aug 31 06:02:22 vkufs1_11 kernel: Inspecting > /boot/System.map-2.4.36.arkhangel > Aug 31 06:02:22 vkufs1_11 kernel: Loaded 19891 symbols from > > > Причем зависание идет на обоих серверах ровно ровно в одно и тоже время. > Начал анализировать проблему. Оказалось в это время выполняются задания > anacron (лежат в /etc/cron.daily) > logrotate > cyrus-imapd > makewhatis > stmpclean > sysstat > 000anacron > osec > updatedb Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте запустить их вручную. Если зависнет, то проверьте железо. -- ldv [-- Attachment #2: Type: application/pgp-signature, Size: 197 bytes --] ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации) 2008-08-31 9:03 ` Dmitry V. Levin @ 2008-09-01 2:59 ` master altlinux 2008-09-01 7:03 ` Yura Kalinichenko 2008-09-03 18:52 ` Michael Shigorin 0 siblings, 2 replies; 15+ messages in thread From: master altlinux @ 2008-09-01 2:59 UTC (permalink / raw) To: ALT Linux sysadmin discuss > Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте запустить > их вручную. Если зависнет, то проверьте железо. > Я из запускал несколько раз сразу же после перезагрузки. Ни к чему не привело. Сегодня вышел в ночь. Все идеально. Ни один сервер не завис. Такое впечатление, что на это появлияли прикладные программы. В пятницу начался большой обмен данными и возможно это привело к падению. Сейчас поставил iozone гоняться. Потом буду память на всякий случай проверять. За любые идеи - предложения - респект... ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации) 2008-09-01 2:59 ` master altlinux @ 2008-09-01 7:03 ` Yura Kalinichenko 2008-09-08 6:26 ` Владимир 2008-09-03 18:52 ` Michael Shigorin 1 sibling, 1 reply; 15+ messages in thread From: Yura Kalinichenko @ 2008-09-01 7:03 UTC (permalink / raw) To: ALT Linux sysadmin discuss master altlinux пишет: >> Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте запустить >> их вручную. Если зависнет, то проверьте железо. >> >> > > Я из запускал несколько раз сразу же после перезагрузки. Ни к чему не привело. > Сегодня вышел в ночь. Все идеально. Ни один сервер не завис. Такое > впечатление, что на это появлияли прикладные программы. В пятницу > начался большой обмен данными и возможно это привело к падению. Сейчас > поставил iozone гоняться. Потом буду память на всякий случай > проверять. > За любые идеи - предложения - респект... У меня тоже куча серверов под M24. Периодически (похоже, после logrotate) очень странно падает syslog: вроде как по всем признакам живой, но в журналы ничего не пишется. При этом в системе начинаются различные плоходиагностируемые глюки. Помогает вот такой скриптец, пускаемый через cron: #!/bin/sh addr=root # максимально допустимый промежуток времени отсутствия записей в syslog в секундах MAX_DELTA_SEC=3600 /etc/init.d/syslogd status >/dev/null 2>&1 status=$? if [ $status -eq 0 ]; then # Получим дату/время из последней записи в syslog last_log_date=`tail -n 1 /var/log/messages | awk '{printf "%s %s %s",$1,$2,$3}'` if [ -n "$last_log_date" ]; then # Преобразуем в секунды с 00:00:00 1970-01-01 UTC last_log_date="`date --date="$last_log_date" +%s`" current_date="`date +%s`" delta=`expr $current_date - $last_log_date` if [ $delta -gt $MAX_DELTA_SEC ]; then status=2 fi fi fi if [ $status -ne 0 ]; then echo "syslogd is down. Try restart..." | mail -s "ERROR syslogd" $addr /etc/init.d/syslogd restart >/dev/null 2>&1 fi -- SY, Yura Kalinichenko ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации) 2008-09-01 7:03 ` Yura Kalinichenko @ 2008-09-08 6:26 ` Владимир 0 siblings, 0 replies; 15+ messages in thread From: Владимир @ 2008-09-08 6:26 UTC (permalink / raw) To: ALT Linux sysadmin discuss Yura Kalinichenko пишет: > master altlinux пишет: >>> Последние 2 задания в этом списке довольно IO-ёмкие, попробуйте >>> запустить >>> их вручную. Если зависнет, то проверьте железо. >>> >>> >> >> Я из запускал несколько раз сразу же после перезагрузки. Ни к чему не >> привело. >> Сегодня вышел в ночь. Все идеально. Ни один сервер не завис. Такое >> впечатление, что на это появлияли прикладные программы. В пятницу >> начался большой обмен данными и возможно это привело к падению. Сейчас >> поставил iozone гоняться. Потом буду память на всякий случай >> проверять. >> За любые идеи - предложения - респект... > У меня тоже куча серверов под M24. Периодически (похоже, после > logrotate) очень странно падает syslog: вроде как по всем признакам > живой, но в журналы ничего не пишется. При этом в системе начинаются > различные плоходиагностируемые глюки. Помогает вот такой скриптец, > пускаемый через cron: Когда сидел на M24 наблюдал подобное достаточно часто. Это происходило в условиях, когда ОЗУ было выбрано почти под ноль и система залезала глубоко в swap. Добавление оперативки положительно сказывалось на uptime до начала глюков. Сейчас у меня остался один некритичный и ненагруженный шлюз под M24. Он никогда не использует swap и не имеет подобных проблем. Возможно что то связано с приоритетом syslogd и его выталкиванием в swap, но я с этим не разбирался. На 4.0 подобного не наблюдаю. -- Vladimir Kholmanov fmfm@mmascience.ru fmfm@mma.ru ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации) 2008-09-01 2:59 ` master altlinux 2008-09-01 7:03 ` Yura Kalinichenko @ 2008-09-03 18:52 ` Michael Shigorin 2008-09-06 9:01 ` master altlinux 1 sibling, 1 reply; 15+ messages in thread From: Michael Shigorin @ 2008-09-03 18:52 UTC (permalink / raw) To: ALT Linux sysadmin discuss On Mon, Sep 01, 2008 at 06:59:42AM +0400, master altlinux wrote: > За любые идеи - предложения - респект... Ну если за любые... Мне ядра сборки vsu@ нравятся определённо больше, чем своей. Если есть возможность -- проведите текущее обслуживание систем, начиная с пылесоса по корпусу, кулерам и памяти. Просмотрите глазами конденсаторы -- не вздулись ли какие. Прогоните несколько часов (хоть полчаса) memtest86+, а по дискам -- bonnie++. После smartctl -a, если это программный RAID. Ещё могу предложить для анализа тенденций использовать collectd в клиент-серверном варианте (чтоб все байтики статистики, что успеет засунуть в сеть, были сохранены) -- можете попробовать сбэкпортить на M24 пакет из Daedalus, который всё никак не доберётся после доработки до Sisyphus и в бранчи. PS: как задумаетесь перетаскивать системы -- проверено засовывание целиком в OpenVZ-контейнер под Server 4.0 с последующей постепенной/управляемой/откатывабельной миграцией сервисов на 4.0. -- ---- WBR, Michael Shigorin <mike@altlinux.ru> ------ Linux.Kiev http://www.linux.kiev.ua/ ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации) 2008-09-03 18:52 ` Michael Shigorin @ 2008-09-06 9:01 ` master altlinux 2008-09-06 15:18 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Led 2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin 0 siblings, 2 replies; 15+ messages in thread From: master altlinux @ 2008-09-06 9:01 UTC (permalink / raw) To: shigorin, ALT Linux sysadmin discuss Спасибо всем большое... Добился определенных результатов. 1. На сервере кроме ОС работает ППО (оно иногда пишет небольшие объемы информации - в час по 50-100 мб.) Поставил iozone тестироваться вместе с ППО - через 2.5 часа сервер повис. Потом через сутки опять iozone был поставлен но без ППО сервер выдержал. 2. Начал эксперементировать: работает ППО и запускаю скрипт obsec - перезагрузка системы. Работает ППО - и запускаю скрипт updatedb - система зависает. 3. Вчера вообще пипец начался: операторы по sftp копируют файлы с сервера и он стабильно перегружается. 2Michael Shigorin: мне тоже нравятся ваши (ну в смысле altlinux) сборки ядра. Но ваша компания отказалась поддерживать ветку ядра 2.4 и поэтому приходится собирать самому. Пропылесосить это хорошее идея, только почему они вместе падают и зависают. Я считаю дело в дисковой подсистеме точнее в драйвере для raid массива (aacraid). Вот распечатка lsmod: Module Size Used by Not tainted sg 29468 0 (autoclean) sr_mod 14320 0 (autoclean) cdrom 27552 0 (autoclean) [sr_mod] floppy 48056 0 (autoclean) usb-storage 26040 0 autofs4 8532 0 (autoclean) usb-uhci 21996 0 (unused) ehci-hcd 16872 0 (unused) e1000 97640 4 (autoclean) ide-scsi 9296 0 ipmi_kcs_drv 8333 1 ipmi_devintf 3592 0 (unused) w83627hf 14332 0 (unused) bmcsensors 15937 0 (unused) i2c-proc 5892 0 [w83627hf bmcsensors] i2c-ipmi 2028 0 (unused) ipmi_msghandler 14824 0 [ipmi_kcs_drv ipmi_devintf i2c-ipmi] i2c-isa 808 0 (unused) i2c-i801 4664 0 (unused) i2c-core 15172 0 [w83627hf bmcsensors i2c-proc i2c-ipmi i2c-isa i2c-i801] rtc 6780 0 (autoclean) aacraid 30212 4 sd_mod 10832 8 А вот распечатка lspci -v: 00:00.0 Host bridge: Intel Corp.: Unknown device 25d8 (rev b1) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: bus master, fast devsel, latency 0, IRQ 16 Capabilities: [50] Power Management version 2 Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable- Capabilities: [6c] #10 [0041] 00:02.0 PCI bridge: Intel Corp.: Unknown device 25f7 (rev b1) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=00, secondary=01, subordinate=07, sec-latency=0 I/O behind bridge: 00002000-00003fff Memory behind bridge: d8000000-d86fffff Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000 Capabilities: [50] Power Management version 2 Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable- Capabilities: [6c] #10 [0041] 00:04.0 PCI bridge: Intel Corp.: Unknown device 25f8 (rev b1) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=00, secondary=08, subordinate=08, sec-latency=0 Capabilities: [50] Power Management version 2 Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable- Capabilities: [6c] #10 [0141] 00:06.0 PCI bridge: Intel Corp.: Unknown device 25f9 (rev b1) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=00, secondary=09, subordinate=09, sec-latency=0 Capabilities: [50] Power Management version 2 Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/1 Enable- Capabilities: [6c] #10 [0141] 00:08.0 System peripheral: Intel Corp.: Unknown device 1a38 (rev b1) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: bus master, fast devsel, latency 0, IRQ 16 Memory at fe700000 (64-bit, non-prefetchable) [size=1K] Capabilities: [50] Power Management version 2 Capabilities: [58] Message Signalled Interrupts: 64bit- Queue=0/0 Enable- Capabilities: [6c] #10 [0091] 00:10.0 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: fast devsel 00:10.1 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: fast devsel 00:10.2 Host bridge: Intel Corp.: Unknown device 25f0 (rev b1) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: fast devsel 00:11.0 Host bridge: Intel Corp.: Unknown device 25f1 (rev b1) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: fast devsel 00:13.0 Host bridge: Intel Corp.: Unknown device 25f3 (rev b1) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: fast devsel 00:15.0 Host bridge: Intel Corp.: Unknown device 25f5 (rev b1) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: fast devsel 00:16.0 Host bridge: Intel Corp.: Unknown device 25f6 (rev b1) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: fast devsel 00:1c.0 PCI bridge: Intel Corp.: Unknown device 2690 (rev 09) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=00, secondary=0a, subordinate=0a, sec-latency=0 Capabilities: [40] #10 [0141] Capabilities: [80] Message Signalled Interrupts: 64bit- Queue=0/0 Enable- Capabilities: [90] #0d [0000] Capabilities: [a0] Power Management version 2 00:1d.0 USB Controller: Intel Corp.: Unknown device 2688 (rev 09) (prog-if 00 [UHCI]) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: bus master, medium devsel, latency 0, IRQ 17 I/O ports at 1800 [size=32] 00:1d.1 USB Controller: Intel Corp.: Unknown device 2689 (rev 09) (prog-if 00 [UHCI]) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: bus master, medium devsel, latency 0, IRQ 19 I/O ports at 1820 [size=32] 00:1d.2 USB Controller: Intel Corp.: Unknown device 268a (rev 09) (prog-if 00 [UHCI]) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: bus master, medium devsel, latency 0, IRQ 18 I/O ports at 1840 [size=32] 00:1d.7 USB Controller: Intel Corp.: Unknown device 268c (rev 09) (prog-if 20 [EHCI]) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: bus master, medium devsel, latency 0, IRQ 17 Memory at d8a00000 (32-bit, non-prefetchable) [size=1K] Capabilities: [50] Power Management version 2 Capabilities: [58] #0a [20a0] 00:1e.0 PCI bridge: Intel Corp. 82801BA/CA/DB/EB/ER Hub interface to PCI Bridge (rev d9) (prog-if 01 [Subtractive decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=00, secondary=0b, subordinate=0b, sec-latency=32 I/O behind bridge: 00004000-00004fff Memory behind bridge: d8700000-d87fffff Prefetchable memory behind bridge: 00000000d0000000-00000000d7f00000 Capabilities: [50] #0d [0000] 00:1f.0 ISA bridge: Intel Corp.: Unknown device 2670 (rev 09) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: bus master, medium devsel, latency 0 00:1f.1 IDE interface: Intel Corp.: Unknown device 269e (rev 09) (prog-if 8a [Master SecP PriP]) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: bus master, medium devsel, latency 0, IRQ 18 I/O ports at <unassigned> I/O ports at <unassigned> I/O ports at <unassigned> I/O ports at <unassigned> I/O ports at 1860 [size=16] 00:1f.3 SMBus: Intel Corp.: Unknown device 269b (rev 09) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: medium devsel, IRQ 19 I/O ports at 1100 [size=32] 01:00.0 PCI bridge: Intel Corp.: Unknown device 3500 (rev 01) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=01, secondary=02, subordinate=06, sec-latency=0 I/O behind bridge: 00002000-00003fff Memory behind bridge: d8000000-d85fffff Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000 Capabilities: [44] #10 [0051] Capabilities: [70] Power Management version 2 Capabilities: [80] #0d [0000] 01:00.3 PCI bridge: Intel Corp.: Unknown device 350c (rev 01) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=01, secondary=07, subordinate=07, sec-latency=64 Capabilities: [44] #10 [0071] Capabilities: [6c] Power Management version 2 Capabilities: [80] #0d [0000] Capabilities: [d8] 02:00.0 PCI bridge: Intel Corp.: Unknown device 3510 (rev 01) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=02, secondary=03, subordinate=05, sec-latency=0 I/O behind bridge: 00002000-00002fff Memory behind bridge: d8000000-d84fffff Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000 Capabilities: [44] #10 [0061] Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable- Capabilities: [70] Power Management version 2 Capabilities: [80] #0d [0000] 02:02.0 PCI bridge: Intel Corp.: Unknown device 3518 (rev 01) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=02, secondary=06, subordinate=06, sec-latency=0 I/O behind bridge: 00003000-00003fff Memory behind bridge: d8500000-d85fffff Capabilities: [44] #10 [0061] Capabilities: [60] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable- Capabilities: [70] Power Management version 2 Capabilities: [80] #0d [0000] 03:00.0 PCI bridge: Intel Corp. PCI Bridge Hub A (rev 09) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=03, secondary=04, subordinate=04, sec-latency=64 Memory behind bridge: d8000000-d83fffff Prefetchable memory behind bridge: 00000000c0000000-00000000cff00000 Capabilities: [44] #10 [0071] Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable- Capabilities: [6c] Power Management version 2 Capabilities: [d8] 03:00.2 PCI bridge: Intel Corp. PCI Bridge Hub B (rev 09) (prog-if 00 [Normal decode]) Flags: bus master, fast devsel, latency 0 Bus: primary=03, secondary=05, subordinate=05, sec-latency=64 I/O behind bridge: 00002000-00002fff Memory behind bridge: d8400000-d84fffff Capabilities: [44] #10 [0071] Capabilities: [5c] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable- Capabilities: [6c] Power Management version 2 Capabilities: [d8] 04:01.0 RAID bus controller: Adaptec AAC-RAID (rev 02) Subsystem: Adaptec ASR-2020S PCI-X ZCR (Skyhawk) Flags: bus master, stepping, 66Mhz, medium devsel, latency 32, IRQ 16 Memory at d8200000 (64-bit, non-prefetchable) [size=2M] Memory at d8000000 (32-bit, non-prefetchable) [size=2M] Memory at c0000000 (32-bit, prefetchable) [size=256M] Expansion ROM at <unassigned> [disabled] [size=32K] Capabilities: [c0] Power Management version 2 Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/1 Enable- Capabilities: [e0] PCI-X non-bridge device. 05:01.0 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet Controller (rev 03) Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 16 Memory at d8480000 (64-bit, non-prefetchable) [size=128K] Memory at d8400000 (64-bit, non-prefetchable) [size=256K] I/O ports at 2000 [size=64] Expansion ROM at <unassigned> [disabled] [size=256K] Capabilities: [dc] Power Management version 2 Capabilities: [e4] Capabilities: [f0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable- 05:01.1 Ethernet controller: Intel Corp. 82546GB Gigabit Ethernet Controller (rev 03) Subsystem: Intel Corp. PRO/1000 MT Dual Port Network Connection Flags: bus master, 66Mhz, medium devsel, latency 52, IRQ 17 Memory at d84a0000 (64-bit, non-prefetchable) [size=128K] Memory at d8440000 (64-bit, non-prefetchable) [size=256K] I/O ports at 2040 [size=64] Expansion ROM at <unassigned> [disabled] [size=256K] Capabilities: [dc] Power Management version 2 Capabilities: [e4] Capabilities: [f0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable- 06:00.0 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01) Subsystem: Super Micro Computer Inc: Unknown device 0000 Flags: bus master, fast devsel, latency 0, IRQ 18 Memory at d8500000 (32-bit, non-prefetchable) [size=128K] I/O ports at 3000 [size=32] Capabilities: [c8] Power Management version 2 Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable- Capabilities: [e0] #10 [0001] 06:00.1 Ethernet controller: Intel Corp.: Unknown device 1096 (rev 01) Subsystem: Super Micro Computer Inc: Unknown device 0000 Flags: bus master, fast devsel, latency 0, IRQ 19 Memory at d8520000 (32-bit, non-prefetchable) [size=128K] I/O ports at 3020 [size=32] Capabilities: [c8] Power Management version 2 Capabilities: [d0] Message Signalled Interrupts: 64bit+ Queue=0/0 Enable- Capabilities: [e0] #10 [0001] 0b:01.0 VGA compatible controller: ATI Technologies Inc: Unknown device 515e (rev 02) (prog-if 00 [VGA]) Subsystem: Super Micro Computer Inc: Unknown device 8080 Flags: bus master, stepping, fast Back2Back, medium devsel, latency 66, IRQ 18 Memory at d0000000 (32-bit, prefetchable) [size=128M] I/O ports at 4000 [size=256] Memory at d8700000 (32-bit, non-prefetchable) [size=64K] Expansion ROM at <unassigned> [disabled] [size=128K] Capabilities: [50] Power Management version 2 В свое время на других объектах я собирал с этими железками и драйверами на ядрах 2.4.32 и 2.4.35 и все работало без проблем. Очень жду совета. Сейчас ситуация очень критическая. Если будут советы по пересборке ядра либо вывода более подробной диагностической информации в случании падения - буду очень признателен. On 9/3/08, Michael Shigorin <mike@osdn.org.ua> wrote: > On Mon, Sep 01, 2008 at 06:59:42AM +0400, master altlinux wrote: >> За любые идеи - предложения - респект... > > Ну если за любые... > > Мне ядра сборки vsu@ нравятся определённо больше, чем своей. > > Если есть возможность -- проведите текущее обслуживание систем, > начиная с пылесоса по корпусу, кулерам и памяти. > > Просмотрите глазами конденсаторы -- не вздулись ли какие. > > Прогоните несколько часов (хоть полчаса) memtest86+, а по дискам > -- bonnie++. После smartctl -a, если это программный RAID. > > Ещё могу предложить для анализа тенденций использовать collectd > в клиент-серверном варианте (чтоб все байтики статистики, что > успеет засунуть в сеть, были сохранены) -- можете попробовать > сбэкпортить на M24 пакет из Daedalus, который всё никак не > доберётся после доработки до Sisyphus и в бранчи. > > PS: как задумаетесь перетаскивать системы -- проверено > засовывание целиком в OpenVZ-контейнер под Server 4.0 > с последующей постепенной/управляемой/откатывабельной > миграцией сервисов на 4.0. > > -- > ---- WBR, Michael Shigorin <mike@altlinux.ru> > ------ Linux.Kiev http://www.linux.kiev.ua/ > _______________________________________________ > Sysadmins mailing list > Sysadmins@lists.altlinux.org > https://lists.altlinux.org/mailman/listinfo/sysadmins > ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера ( логи , сбор информации ) 2008-09-06 9:01 ` master altlinux @ 2008-09-06 15:18 ` Led 2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin 1 sibling, 0 replies; 15+ messages in thread From: Led @ 2008-09-06 15:18 UTC (permalink / raw) To: ALT Linux sysadmin discuss On Saturday, 06 September 2008 12:01:24 master altlinux wrote: > Спасибо всем большое... > > Добился определенных результатов. > 1. На сервере кроме ОС работает ППО (оно иногда пишет небольшие объемы > информации - в час по 50-100 мб.) Поставил iozone тестироваться > вместе с ППО - через 2.5 часа сервер повис. Потом через сутки опять > iozone был поставлен но без ППО сервер выдержал. > > 2. Начал эксперементировать: работает ППО и запускаю скрипт obsec - > перезагрузка системы. Работает ППО - и запускаю скрипт updatedb - > система зависает. > > 3. Вчера вообще пипец начался: операторы по sftp копируют файлы с > сервера и он стабильно перегружается. > > 2Michael Shigorin: мне тоже нравятся ваши (ну в смысле altlinux) > сборки ядра. Но ваша компания отказалась поддерживать ветку ядра 2.4 и > поэтому приходится собирать самому. Пропылесосить это хорошее идея, > только почему они вместе падают и зависают. > Я считаю дело в дисковой подсистеме точнее в драйвере для raid массива > (aacraid). userspace (в частности, из-за glibc) в "altlinux" не будет нормально работать с ядром 2.4. AFAIK нужно >= 2.6.8. Т.о. вы просто теряете время, пытаясь что-то решить в рассылке:) -- Led ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации) 2008-09-06 9:01 ` master altlinux 2008-09-06 15:18 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Led @ 2008-09-07 20:28 ` Michael Shigorin 2008-09-08 6:04 ` master altlinux 2008-09-08 7:20 ` [Sysadmins] зависание сервера (логи,сбор информации) Vladimir V. Kamarzin 1 sibling, 2 replies; 15+ messages in thread From: Michael Shigorin @ 2008-09-07 20:28 UTC (permalink / raw) To: ALT Linux sysadmin discuss On Sat, Sep 06, 2008 at 01:01:24PM +0400, master altlinux wrote: > 2Michael Shigorin: мне тоже нравятся ваши (ну в смысле altlinux) > сборки ядра. Но ваша компания отказалась поддерживать ветку > ядра 2.4 и поэтому приходится собирать самому. Пропылесосить > это хорошее идея, только почему они вместе падают и зависают. Потому что нагрузка по схожему crontab может приводить неустойчивые физически системы к почти синхронному слёту. > Я считаю дело в дисковой подсистеме точнее в драйвере для raid > массива (aacraid). Да вроде про них ничего особо плохого не пробегало... e.g. http://lists.altlinux.ru/pipermail/hardware/2005-January/003253.html -- если б были известные грабли, vsu@ бы наверняка хоть словом обмолвился, поскольку в остальном характеристика краткая, но скорее положительная. > В свое время на других объектах я собирал с этими железками и > драйверами на ядрах 2.4.32 и 2.4.35 и все работало без проблем. Своей же сборки? Если да -- я бы искал проблему в другом или сравнивал .config (BTW ещё стоит сравнить версии BIOS мамок и контроллеров). > либо вывода более подробной диагностической информации в > случании падения - буду очень признателен. Насколько понимаю, через обычную или serial-консоль... если виснет наглухо, сразу ребутается -- тогда не знаю совсем. (разве если panic=5 какой передаёте, то можно поднять до минуты-двух, чтоб хоть успеть посмотреть дамп; vga=что-там-было-для-43-строк тоже полезно) PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x? -- ---- WBR, Michael Shigorin <mike@altlinux.ru> ------ Linux.Kiev http://www.linux.kiev.ua/ ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации) 2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin @ 2008-09-08 6:04 ` master altlinux 2008-09-08 9:57 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey ` (2 more replies) 2008-09-08 7:20 ` [Sysadmins] зависание сервера (логи,сбор информации) Vladimir V. Kamarzin 1 sibling, 3 replies; 15+ messages in thread From: master altlinux @ 2008-09-08 6:04 UTC (permalink / raw) To: shigorin, ALT Linux sysadmin discuss > > PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x? > Да обязательно. ППО которое работает на данных серверах не стабильно функционирует на ядрах 2.6 Версии биоса перепроверено и настроено одинаково. На остальных серверах где НЕТ raid 5 уровня и работает софтовый райд массив (зеркалка) таких проблем нет. Сейчас если разрешат буду эксперементировать с аппаратной частью (вытаскивать дополнительные платы). В логах отсуствует какой-либо kernel panic. Каким образом посмотреть дамп vga. Сейчас ситуация такова, что при активной дисковой активности либо вешается сервер либо перегружается. to led: > userspace (в частности, из-за glibc) в "altlinux" не будет нормально > работать > с ядром 2.4. AFAIK нужно >= 2.6.8. > Т.о. вы просто теряете время, пытаясь что-то решить в рассылке:) Спасибо большое за вашу поддержку. Но все эти проблемы на одном из работающих блоков российской АЭС. Мощность на блоке сейчас 104% (так положено по плану). Система естественно дублирована. Но для разрешения проблем мне сейчас придется один комплект выключать т.е. система будет только на одном комплекте. Я то теряю время, но вам лучше помолиться за меня. ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера ( логи , сбор информации ) 2008-09-08 6:04 ` master altlinux @ 2008-09-08 9:57 ` Sergey 2008-09-08 10:58 ` [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] Vyatcheslav Perevalov 2008-09-09 9:17 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin 2 siblings, 0 replies; 15+ messages in thread From: Sergey @ 2008-09-08 9:57 UTC (permalink / raw) To: ALT Linux sysadmin discuss On Monday 08 September 2008, master altlinux wrote: > > с ядром 2.4. AFAIK нужно >= 2.6.8. > > Т.о. вы просто теряете время, пытаясь что-то решить в рассылке:) > Спасибо большое за вашу поддержку. Но все эти проблемы на одном из > работающих блоков российской АЭС. Мда... В менее серьёзных ситуациях следует просто брать новую железку и поднимать новую систему на ней. Это безотносительно вопроса, следует ли такие вещи, вообще, на Linux делать... -- С уважением, Сергей a_s_y@sama.ru ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] 2008-09-08 6:04 ` master altlinux 2008-09-08 9:57 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey @ 2008-09-08 10:58 ` Vyatcheslav Perevalov 2008-09-09 9:17 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin 2 siblings, 0 replies; 15+ messages in thread From: Vyatcheslav Perevalov @ 2008-09-08 10:58 UTC (permalink / raw) To: ALT Linux sysadmin discuss В сообщении от 8 сентября 2008 master altlinux написал(a): > Но все эти проблемы на одном из > работающих блоков российской АЭС. Мощность на блоке сейчас 104% (так > положено по плану). Система естественно дублирована. Но для разрешения > проблем мне сейчас придется один комплект выключать т.е. система будет > только на одном комплекте. Я то теряю время, но вам лучше помолиться > за меня. Надеюсь, это не система регулирования мощности? -- Всего хорошего /vip ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи, сбор информации) 2008-09-08 6:04 ` master altlinux 2008-09-08 9:57 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey 2008-09-08 10:58 ` [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] Vyatcheslav Perevalov @ 2008-09-09 9:17 ` Michael Shigorin 2 siblings, 0 replies; 15+ messages in thread From: Michael Shigorin @ 2008-09-09 9:17 UTC (permalink / raw) To: master altlinux; +Cc: community On Mon, Sep 08, 2008 at 10:04:18AM +0400, master altlinux wrote: > > PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x? > Да обязательно. ППО которое работает на данных серверах не > стабильно функционирует на ядрах 2.6 Ого. Я бы такому и на 2.4 не слишком доверял. (это не та j2me случайно?) > Версии биоса перепроверено и настроено одинаково. На остальных > серверах где НЕТ raid 5 уровня и работает софтовый райд массив > (зеркалка) таких проблем нет. Сейчас если разрешат буду > эксперементировать с аппаратной частью (вытаскивать > дополнительные платы). Есть ли возможность поднять с таким железом стенд и экспериментировать на нём? Есть ли возможность использовать не raid5, а raid1/10? > В логах отсуствует какой-либо kernel panic. Каким образом > посмотреть дамп vga. Насколько понимаю, никаким -- только заранее подключить и задействовать serial console... > Сейчас ситуация такова, что при активной дисковой активности > либо вешается сервер либо перегружается. Попробуйте ещё параметры загрузки (по очереди/вместе, лучше на стенде -- может измениться распределение прерываний, см. /proc/interrupts): noapic nolapic pci=noacpi > Но все эти проблемы на одном из работающих блоков российской > АЭС. Мощность на блоке сейчас 104% (так положено по плану). > Система естественно дублирована. Но для разрешения проблем мне > сейчас придется один комплект выключать т.е. система будет > только на одном комплекте. Лучше такой же стенд -- или заменная система со стенда, которая прошла тесты и может быть введена вместо резервного комплекта, пока он в тестировании. > Я то теряю время, но вам лучше помолиться за меня. Это имя надо знать... по технической же части -- можете попробовать связаться с ООО Альт Линукс насчёт диагностики данной ситуации по отдельному договору (support@). Также замечу, что у некоторых коллег по конторе (magic.kiev.ua) есть опыт разработки отказоустойчивого ПО, которое вроде и посейчас работает как минимум на одной украинской АЭС. Опытные руки по аппаратному обеспечению тоже есть. Если надо -- обращайтесь. -- ---- WBR, Michael Shigorin <mike@altlinux.ru> ------ Linux.Kiev http://www.linux.kiev.ua/ ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера (логи,сбор информации) 2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin 2008-09-08 6:04 ` master altlinux @ 2008-09-08 7:20 ` Vladimir V. Kamarzin 1 sibling, 0 replies; 15+ messages in thread From: Vladimir V. Kamarzin @ 2008-09-08 7:20 UTC (permalink / raw) To: ALT Linux sysadmin discuss >>>>> On 08 Sep 2008 at 02:28 "MS" == Michael Shigorin writes: >> либо вывода более подробной диагностической информации в >> случании падения - буду очень признателен. MS> Насколько понимаю, через обычную или serial-консоль... MS> если виснет наглухо, сразу ребутается -- тогда не знаю совсем. MS> (разве если panic=5 какой передаёте, то можно поднять до MS> минуты-двух, чтоб хоть успеть посмотреть дамп; MS> vga=что-там-было-для-43-строк тоже полезно) + earlyprintk=vga/ttyS0 -- vvk Postfix page on f.i: http://freesource.info/wiki/Dokumentacija/Postfix Russian Postfix irc: irc.freenode.net #postfix-ru ^ permalink raw reply [flat|nested] 15+ messages in thread
* Re: [Sysadmins] зависание сервера ( логи , сбор информации ) 2008-08-31 7:27 ` [Sysadmins] зависание сервера (логи, сбор информации) Max Ivanov 2008-08-31 9:03 ` Dmitry V. Levin @ 2008-09-02 7:36 ` Sergey 2 siblings, 0 replies; 15+ messages in thread From: Sergey @ 2008-09-02 7:36 UTC (permalink / raw) To: ALT Linux sysadmin discuss On Sunday 31 August 2008, master altlinux wrote: > И вот такие чудные логи: Что касается рестартов syslog/klog, это logrotate... -- С уважением, Сергей a_s_y@sama.ru ^ permalink raw reply [flat|nested] 15+ messages in thread
end of thread, other threads:[~2008-09-09 9:17 UTC | newest] Thread overview: 15+ messages (download: mbox.gz / follow: Atom feed) -- links below jump to the message on this page -- 2008-08-31 7:27 ` [Sysadmins] зависание сервера (логи, сбор информации) Max Ivanov 2008-08-31 9:03 ` Dmitry V. Levin 2008-09-01 2:59 ` master altlinux 2008-09-01 7:03 ` Yura Kalinichenko 2008-09-08 6:26 ` Владимир 2008-09-03 18:52 ` Michael Shigorin 2008-09-06 9:01 ` master altlinux 2008-09-06 15:18 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Led 2008-09-07 20:28 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin 2008-09-08 6:04 ` master altlinux 2008-09-08 9:57 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey 2008-09-08 10:58 ` [Sysadmins] зависание сервера ( логи , сбор информации ) [JT] Vyatcheslav Perevalov 2008-09-09 9:17 ` [Sysadmins] зависание сервера (логи, сбор информации) Michael Shigorin 2008-09-08 7:20 ` [Sysadmins] зависание сервера (логи,сбор информации) Vladimir V. Kamarzin 2008-09-02 7:36 ` [Sysadmins] зависание сервера ( логи , сбор информации ) Sergey
ALT Linux sysadmins discussion This inbox may be cloned and mirrored by anyone: git clone --mirror http://lore.altlinux.org/sysadmins/0 sysadmins/git/0.git # If you have public-inbox 1.1+ installed, you may # initialize and index your mirror using the following commands: public-inbox-init -V2 sysadmins sysadmins/ http://lore.altlinux.org/sysadmins \ sysadmins@lists.altlinux.org sysadmins@lists.altlinux.ru sysadmins@lists.altlinux.com public-inbox-index sysadmins Example config snippet for mirrors. Newsgroup available over NNTP: nntp://lore.altlinux.org/org.altlinux.lists.sysadmins AGPL code for this site: git clone https://public-inbox.org/public-inbox.git