From: Alex Moskalenko <mav@elserv.msk.su> To: "ALT Linux sysadmins' discussion" <sysadmins@lists.altlinux.org> Subject: Re: [Sysadmins] IBM eServer x3400 + Xen 4.1.0 + kernel-image-xen-dom0-alt38 Date: Mon, 11 Jul 2011 10:12:12 +0400 Message-ID: <201107111012.12994.mav@elserv.msk.su> (raw) In-Reply-To: <201105161138.02397.mav@elserv.msk.su> Здравствуйте! Снова подниму тему работы нашего xen-dom0 на eServer x3400. На данный момент на сервере установлены xen 4.1.1 и ядро 2.6.32-xen-dom0-alt41. В качетсве гостевых систем - 4 hvm-домена с Windows и 2 pv с Linux (2.6.39-std-def-alt2. За время тестирования накопилась следующая статистика: 1) Несмотря на "глючный ACPI" все устройства работают; 2) Периодически появляются сообщения от ядра: === cut === [44022.366517] BUG: soft lockup - CPU#0 stuck for 74s! [swapper:0] [44022.366532] Modules linked in: xt_physdev ipt_MASQUERADE iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 xt_state nf_conntrack ipt_REJECT iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables coretemp ipmi_si bridge stp vfat fat usb_storage usb_libusual dm_multipath scsi_dh dm_mod joydev usbhid hid ide_cd_mod cdrom ata_generic ide_pci_generic pata_acpi ata_piix ehci_hcd uhci_hcd usbcore edac_core psmouse ahci piix i5k_amb i2c_i801 hwmon pcspkr nls_base libata tg3 ide_core i2c_core serio_raw evdev 8250_pnp rtc_cmos 8250 rtc_core serial_core rtc_lib ses container enclosure sg thermal button processor parport_pc aksparlnx(P) parport ipmi_devintf ipmi_msghandler tun xen_gntdev ext3 jbd mbcache sd_mod crc_t10dif aacraid scsi_mod [last unloaded: i5000_edac] [44022.367667] CPU 0: [44022.367704] Modules linked in: xt_physdev ipt_MASQUERADE iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 xt_state nf_conntrack ipt_REJECT iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables coretemp ipmi_si bridge stp vfat fat usb_storage usb_libusual dm_multipath scsi_dh dm_mod joydev usbhid hid ide_cd_mod cdrom ata_generic ide_pci_generic pata_acpi ata_piix ehci_hcd uhci_hcd usbcore edac_core psmouse ahci piix i5k_amb i2c_i801 hwmon pcspkr nls_base libata tg3 ide_core i2c_core serio_raw evdev 8250_pnp rtc_cmos 8250 rtc_core serial_core rtc_lib ses container enclosure sg thermal button processor parport_pc aksparlnx(P) parport ipmi_devintf ipmi_msghandler tun xen_gntdev ext3 jbd mbcache sd_mod crc_t10dif aacraid scsi_mod [last unloaded: i5000_edac] [44022.369119] Pid: 0, comm: swapper Tainted: P 2.6.32-xen-dom0-alt41 #1 IBM eServer x3400-[7976L2G]- [44022.369139] RIP: e030:[<ffffffff810093aa>] [<ffffffff810093aa>] hypercall_page+0x3aa/0x1010 [44022.369186] RSP: e02b:ffffffff8154fef0 EFLAGS: 00000246 [44022.369205] RAX: 0000000000000000 RBX: ffffffff8154ffd8 RCX: ffffffff810093aa [44022.369224] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000000000001 [44022.369246] RBP: ffffffff8154ff08 R08: 0000000000000000 R09: 0000000000000000 [44022.369265] R10: 0000000000000000 R11: 0000000000000246 R12: ffffffff815a1b60 [44022.369285] R13: 0000000000000000 R14: 0000000000000000 R15: 0000000000000000 [44022.369308] FS: 00007f9eaa00c700(0000) GS:ffff880028038000(0000) knlGS:0000000000000000 [44022.369327] CS: e033 DS: 0000 ES: 0000 CR0: 000000008005003b [44022.369346] CR2: 00007f1ddcd5c000 CR3: 000000003c797000 CR4: 0000000000002660 [44022.369362] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 [44022.369382] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 [44022.369401] Call Trace: [44022.369436] [<ffffffff81010cc0>] ? xen_safe_halt+0x10/0x30 [44022.369472] [<ffffffff8101db20>] default_idle+0x40/0xb0 [44022.369507] [<ffffffff81014349>] cpu_idle+0x79/0xc0 [44022.369542] [<ffffffff81382d2d>] rest_init+0x6d/0x80 [44022.369576] [<ffffffff815bce55>] start_kernel+0x3f6/0x492 [44022.369613] [<ffffffff815bc2b9>] x86_64_start_reservations+0x99/0xb9 [44022.369651] [<ffffffff815c07f9>] xen_start_kernel+0x5d2/0x6b9 === cut=== Периодичность сообщений случайная. От 2 раз в сутки до раза в неделю. Количество "подвисших" процессоров также может быть как один, так и восемь (количество ядер в системе). Больше всего беспокоит то, что после этих сообщений и dom0, и domU, на которые попали подвисшие CPU, дейсвительно полностью подвисают на время, указанное в строке "BUG: soft lockup - CPU## stuck for ##s!". Это видно по сообщениям ядра в linux ([43965.911454] Clocksource tsc unstable (delta = -42949673037 ns)) и следующих за ним сообщениях от ntpd о коррекции времени; и по сообщениям от службы w32time в Windows; 3) Очень редко в dom0 появляется сообщение ядра ===cut=== EDAC MC0: UE row 1, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=4 RDWR=Write RAS=5926 CAS=0 FATAL Err=0x4 (>Tmid Thermal event with intelligent throttling disabled)) ===cut=== На работе не отражается никак. Тесты памяти ошибок не выявляют, сбоев нет, перегрева не наблюдается. Из вышеперечисленного более всего беспокоит проблема (2). В BIOS все, что мог, перепробовал - отключил Enhanced C-States, поддержку S3 - ситуация не меняется. В связи с этим вопрос к Виталию Кузнецову: не могли бы Вы поделиться патчем на ACPI к нашему 2.6.32-xen-dom0? Я хотел попробовать наложить его на ядро xen-stable-2.6.39 из git://git.kernel.org/pub/scm/linux/kernel/git/konrad/xen.git и попробовать в работе его. Сейчас оно к сожалению падает при загрузке, как 2.6.32-xen-dom0-alt < alt36.2. -- WBR, Alex Moskalenko
next prev parent reply other threads:[~2011-07-11 6:12 UTC|newest] Thread overview: 20+ messages / expand[flat|nested] mbox.gz Atom feed top 2011-04-07 10:19 [Sysadmins] IBM eServer x3400 + Xen 4.1.0 + kernel-image-xen-dom0 = crash Alex Moskalenko 2011-04-07 15:31 ` Vitaly Kuznetsov 2011-04-07 16:19 ` Vitaly Kuznetsov 2011-04-12 6:19 ` Alex Moskalenko 2011-04-12 11:11 ` Vitaly Kuznetsov 2011-04-12 11:28 ` Alex Moskalenko 2011-04-13 16:01 ` Vitaly Kuznetsov 2011-04-14 8:16 ` Alex Moskalenko 2011-04-14 16:22 ` Vitaly Kuznetsov 2011-04-15 8:15 ` Michail Yakushin 2011-05-11 6:57 ` [Sysadmins] IBM eServer x3400 + Xen 4.1.0 + kernel-image-xen-dom0-alt38 Alex Moskalenko 2011-05-13 11:52 ` Vitaly Kuznetsov 2011-05-16 7:38 ` Alex Moskalenko 2011-07-11 6:12 ` Alex Moskalenko [this message] 2011-07-11 6:24 ` Vitaly Kuznetsov 2011-08-10 10:55 ` Alex Moskalenko 2012-02-21 3:07 ` [Sysadmins] IBM eServer x3400 + Xen 4.1.0 + kernel-image-xen-dom0 = crash Alex Moskalenko 2012-02-21 14:42 ` Vitaly Kuznetsov 2012-02-22 8:01 ` Alex Moskalenko 2012-02-25 18:39 ` Vitaly Kuznetsov
Reply instructions: You may reply publicly to this message via plain-text email using any one of the following methods: * Save the following mbox file, import it into your mail client, and reply-to-all from there: mbox Avoid top-posting and favor interleaved quoting: https://en.wikipedia.org/wiki/Posting_style#Interleaved_style * Reply using the --to, --cc, and --in-reply-to switches of git-send-email(1): git send-email \ --in-reply-to=201107111012.12994.mav@elserv.msk.su \ --to=mav@elserv.msk.su \ --cc=sysadmins@lists.altlinux.org \ /path/to/YOUR_REPLY https://kernel.org/pub/software/scm/git/docs/git-send-email.html * If your mail client supports setting the In-Reply-To header via mailto: links, try the mailto: link
ALT Linux sysadmins discussion This inbox may be cloned and mirrored by anyone: git clone --mirror http://lore.altlinux.org/sysadmins/0 sysadmins/git/0.git # If you have public-inbox 1.1+ installed, you may # initialize and index your mirror using the following commands: public-inbox-init -V2 sysadmins sysadmins/ http://lore.altlinux.org/sysadmins \ sysadmins@lists.altlinux.org sysadmins@lists.altlinux.ru sysadmins@lists.altlinux.com public-inbox-index sysadmins Example config snippet for mirrors. Newsgroup available over NNTP: nntp://lore.altlinux.org/org.altlinux.lists.sysadmins AGPL code for this site: git clone https://public-inbox.org/public-inbox.git