ALT Linux sysadmins discussion
 help / color / mirror / Atom feed
* [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt144, task vzctl:12751 blocked for more than 120 seconds.
@ 2016-10-22  8:08 Sergey
  2019-06-29 18:59 ` Sergey
  0 siblings, 1 reply; 8+ messages in thread
From: Sergey @ 2016-10-22  8:08 UTC (permalink / raw)
  To: ALT Linux sysadmin discuss

Приветствую.

Поменял ядро по известной причине. При рестарте сервера вылезла проблема:

Oct 22 11:44:05 kernel: [  963.627231] INFO: task vzctl:12751 blocked for more than 120 seconds.
Oct 22 11:44:05 kernel: [  963.627240]       Not tainted 2.6.32-ovz-el-alt144 #1
Oct 22 11:44:05 kernel: [  963.627243] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Oct 22 11:44:05 kernel: [  963.627247] vzctl         D ffff8801c356f1d0     0 12751      1    0 0x00000000
Oct 22 11:44:05 kernel: [  963.627257]  ffff8801c304bbc8 0000000000000086 0000000000000000 0000000000800000
Oct 22 11:44:05 kernel: [  963.627264]  ffff8801c4e0f110 ffff8801c304bbe0 000000b6263b538b ffff880100000000
Oct 22 11:44:05 kernel: [  963.627270]  ffff880200000000 0000000000000000 0000000100075a64 ffffffff810b2251
Oct 22 11:44:05 kernel: [  963.627277] Call Trace:
Oct 22 11:44:05 kernel: [  963.627294]  [<ffffffff810b2251>] ? lock_hrtimer_base+0x31/0x60
Oct 22 11:44:05 kernel: [  963.627305]  [<ffffffff8148bbe5>] schedule_timeout+0x215/0x2e0
Oct 22 11:44:05 kernel: [  963.627316]  [<ffffffff81077ffc>] ? enqueue_task_fair+0x9c/0x1e0
Oct 22 11:44:05 kernel: [  963.627325]  [<ffffffff81064df6>] ? enqueue_task+0x66/0x80
Oct 22 11:44:05 kernel: [  963.627331]  [<ffffffff8148b2f4>] wait_for_completion+0xe4/0x120
Oct 22 11:44:05 kernel: [  963.627337]  [<ffffffff8106a2d0>] ? default_wake_function+0x0/0x20
Oct 22 11:44:05 kernel: [  963.627353]  [<ffffffffa0774379>] vps_rst_restore_tree+0x259/0x2c0 [vzrst]
Oct 22 11:44:05 kernel: [  963.627363]  [<ffffffffa077661c>] vps_rst_undump+0x18c/0x210 [vzrst]
Oct 22 11:44:05 kernel: [  963.627371]  [<ffffffffa07734c1>] rst_ioctl+0x681/0x790 [vzrst]
Oct 22 11:44:05 kernel: [  963.627379]  [<ffffffffa0772e40>] ? rst_ioctl+0x0/0x790 [vzrst]
Oct 22 11:44:05 kernel: [  963.627392]  [<ffffffff8122c1ee>] proc_reg_unlocked_ioctl+0xde/0x100
Oct 22 11:44:05 kernel: [  963.627402]  [<ffffffff811d3082>] vfs_ioctl+0x22/0xa0
Oct 22 11:44:05 kernel: [  963.627408]  [<ffffffff811d3566>] do_vfs_ioctl+0x3c6/0x5b0
Oct 22 11:44:05 kernel: [  963.627414]  [<ffffffff811d379f>] sys_ioctl+0x4f/0x80
Oct 22 11:44:05 kernel: [  963.627421]  [<ffffffff8100b192>] system_call_fastpath+0x16/0x1b

Висит достаточно долго. Конца не выдержал, сбил процессы, относящиеся к старту
контейнера:

# ps ax|grep vz
   3699 ?        Ss     0:00 /usr/sbin/vzeventd
   3708 ?        S      0:00 /bin/sh /etc/rc.d/rc3.d/S96vz start
   3926 ?        S      0:00 [vzmond]
  12728 ?        S      0:00 initlog -q -c vzctl start 3139 --skip-fsck
  12729 ?        S      0:00 vzctl start 3139 --skip-fsck
  12751 ?        D      0:00 vzctl start 3139 --skip-fsck
  12768 ?        Ss     0:00 vzctl start 3139 --skip-fsck
  14531 pts/1    S+     0:00 grep vz

# kill 12729 12751 12768 

Заблокированный тут 12751. Вот плохо, что не посмотрел strace-ом, на чём он встал.
Из полутора десятков контейнеров таким образом затык обеспечили три. Потом они 
нормально запустились посредством vzctl [VEID] start. То ли связано с обновлением,
то ли нет, не знаю пока. Никто ещё не наступал ? Раньше такого, вроде бы, не было.

Хост-система на p7, но vzctl точечно обновлён до vzctl-4.9.4-alt1

-- 
С уважением, Сергей
a_s_y@sama.ru


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt144, task vzctl:12751 blocked for more than 120 seconds.
  2016-10-22  8:08 [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt144, task vzctl:12751 blocked for more than 120 seconds Sergey
@ 2019-06-29 18:59 ` Sergey
  2019-07-31 20:45   ` [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt168.M80P.2, task vzctl:19720 " Sergey
  0 siblings, 1 reply; 8+ messages in thread
From: Sergey @ 2019-06-29 18:59 UTC (permalink / raw)
  To: sysadmins

On Saturday 22 October 2016, Sergey wrote:

>   12728 ?        S      0:00 initlog -q -c vzctl start 3139 --skip-fsck
>   12729 ?        S      0:00 vzctl start 3139 --skip-fsck
>   12751 ?        D      0:00 vzctl start 3139 --skip-fsck
>   12768 ?        Ss     0:00 vzctl start 3139 --skip-fsck
 
Еле вспомнил, где писал... Проблема сохраняется. Но сейчас ещё посмотрел
процессы. Про strace забыл что-то...

# vzps -E 3138
 CTID     PID TTY          TIME CMD
 3138     13126 ?        00:00:00 init
 3138     13129 ?        00:00:00 kthreadd/203138
 3138     13130 ?        00:00:00 khelper/203138
 3138     13618 ?        00:00:00 iptables-restor

И тот 3139 так же повис. То есть, встаёт на iptables-restore внутри контейнера,
получается...

На текущий момент 2.6.32-ovz-el-alt168.M80P.2 и vzctl-4.9.4-alt1

-- 
С уважением, Сергей
a_s_y@sama.ru


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt168.M80P.2, task vzctl:19720 blocked for more than 120 seconds
  2019-06-29 18:59 ` Sergey
@ 2019-07-31 20:45   ` Sergey
  2019-08-02  6:56     ` Nikolay A. Fetisov
  0 siblings, 1 reply; 8+ messages in thread
From: Sergey @ 2019-07-31 20:45 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

On Saturday 29 June 2019, Sergey wrote:

> >   12728 ?        S      0:00 initlog -q -c vzctl start 3139 --skip-fsck
> >   12729 ?        S      0:00 vzctl start 3139 --skip-fsck
> >   12751 ?        D      0:00 vzctl start 3139 --skip-fsck
> >   12768 ?        Ss     0:00 vzctl start 3139 --skip-fsck
>  
> Еле вспомнил, где писал... Проблема сохраняется. Но сейчас ещё посмотрел
> процессы. Про strace забыл что-то...

> На текущий момент 2.6.32-ovz-el-alt168.M80P.2 и vzctl-4.9.4-alt1

С strace интересно.  Последний vzctl уже в контейнере:

# ps ax| grep vz
   5268 ?        Ss     0:00 /usr/sbin/vzeventd
   5380 ?        S      0:00 /bin/sh /etc/rc.d/rc3.d/S96vz start
   5626 ?        S      0:00 [vzmond]
  19691 ?        S      0:00 initlog -q -c vzctl start 3139 --skip-fsck
  19692 ?        S      0:00 vzctl start 3139 --skip-fsck
  19720 ?        D      0:00 vzctl start 3139 --skip-fsck
  19756 ?        Ss     0:00 vzctl start 3139 --skip-fsck

# vzps -E 3139 ax
 CTID     PID TTY      STAT   TIME COMMAND
3139  19756 ?        Ss     0:00 vzctl start 3139 --skip-fsck
3139  19758 ?        S      0:00 [kthreadd/3139]
3139  19759 ?        S      0:00 [khelper/3139]
3139  20105 ?        S      0:00 iptables-restore -c

И если к нему попытаться прицепиться из хост-системы, то процесс сразу
завершавется:

# strace -p 19756
strace: Process 19756 attached
+++ exited with 0 +++

Контейнер, при этом, запускается в каком-то виде, по крайней мере, apache
там работает, ssh тоже, но вот доступ в контейнер не получить:

# vzctl enter 3139
enter into CT 3139 failed
Unable to open pty: No such file or directory

По ssh аналогично:

$ ssh hostname
qqq@hostname's password:
ssh: PTY allocation request failed on channel 0

В следующий раз надо будет попробовать iptables-restore прибить из
хост-системы и посмотреть, что будет.

-- 
С уважением, Сергей
a_s_y@sama.ru


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt168.M80P.2, task vzctl:19720 blocked for more than 120 seconds
  2019-07-31 20:45   ` [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt168.M80P.2, task vzctl:19720 " Sergey
@ 2019-08-02  6:56     ` Nikolay A. Fetisov
  2019-08-11 14:28       ` Sergey
  0 siblings, 1 reply; 8+ messages in thread
From: Nikolay A. Fetisov @ 2019-08-02  6:56 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

Здравствуйте!

В Чт, 01/08/2019 в 00:45 +0400, Sergey пишет:
> On Saturday 29 June 2019, Sergey wrote:
> 
....
> Контейнер, при этом, запускается в каком-то виде, по крайней мере,
> apache
> там работает, ssh тоже, но вот доступ в контейнер не получить:
> 
> # vzctl enter 3139
> enter into CT 3139 failed
> Unable to open pty: No such file or directory
> 

/dev/pts внутри нет.

В fstab контейнера всё нужное есть? Должно быть что-то типа

proc   /proc     proc    nosuid,noexec,gid=proc          0 0
devpts /dev/pts  devpts  nosuid,noexec,gid=tty,mode=620  0 0
shmfs  /dev/shm  tmpfs   size=5%                         0 0


Ну или ресурсы контейнера зажаты излишне.


-- 
С уважением,
Николай Фетисов

^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt168.M80P.2, task vzctl:19720 blocked for more than 120 seconds
  2019-08-02  6:56     ` Nikolay A. Fetisov
@ 2019-08-11 14:28       ` Sergey
  2019-08-12  7:12         ` Nikolay A. Fetisov
  2019-08-12 10:23         ` Michael Shigorin
  0 siblings, 2 replies; 8+ messages in thread
From: Sergey @ 2019-08-11 14:28 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

On Friday 02 August 2019, Nikolay A. Fetisov wrote:

> > # vzctl enter 3139
> > enter into CT 3139 failed
> > Unable to open pty: No such file or directory
> > 
> 
> /dev/pts внутри нет.
> 
> В fstab контейнера всё нужное есть?

Да, но это явно из-за того, что я "vzctl start ..." внутри контейнера
прибивал. Тут понять надо другое - почему он вечно ждёт, видимно,
iptables-restore во-первых, и почему iptables-restore висит. При том,
что потом, если vzctl restart сделать, то всё запускается. Беда в том,
что воспроизвести получается только перезагрузкой хост-системы, а это
не очень удобно. Точнее вообще неудобно. Хотя можно попробовать тестовый
сервер сделать и там воспроизвести попытаться.

-- 
С уважением, Сергей
a_s_y@sama.ru


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt168.M80P.2, task vzctl:19720 blocked for more than 120 seconds
  2019-08-11 14:28       ` Sergey
@ 2019-08-12  7:12         ` Nikolay A. Fetisov
  2019-08-12 10:23         ` Michael Shigorin
  1 sibling, 0 replies; 8+ messages in thread
From: Nikolay A. Fetisov @ 2019-08-12  7:12 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

В Вс, 11/08/2019 в 18:28 +0400, Sergey пишет:
> On Friday 02 August 2019, Nikolay A. Fetisov wrote:
> 
> > > # vzctl enter 3139
> > > enter into CT 3139 failed
> > > Unable to open pty: No such file or directory
> > > 
> > 
> > /dev/pts внутри нет.
> > 
> > В fstab контейнера всё нужное есть?
> 
> Да, но это явно из-за того, что я "vzctl start ..." внутри контейнера
> прибивал. Тут понять надо другое - почему он вечно ждёт, видимно,
> iptables-restore во-первых, и почему iptables-restore висит.

А разве iptables-restore не должен отрабатывать после обработки 
fstab, причём заметно после? 

>  При том, что потом, если vzctl restart сделать, то всё запускается.
> Беда в том, что воспроизвести получается только перезагрузкой хост-
> системы, ...

Наугад - а это никак не связано с _приостановкой_ VE при перезагрузке?
Т.е., у меня _некоторые_ из VE при остановке службы vz уходят не в
состояние stopped, а в состоянии suspended - с записью состояния VE
в /var/lib/vz/vzreboot/ . Восстановить после перезагрузки HN vz их не
может - о чём сообщает и запускает с нуля как обычно.

Через vzctl suspend / vzctl resume воспроизвести не получится?


>  Хотя можно попробовать тестовый сервер сделать и там воспроизвести
> попытаться.

[JT] А надо ли? С учётом того, что поддержка OpenVZ 6 заканчивается в
ноябре этого года?

-- 
С уважением,
Николай Фетисов

^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt168.M80P.2, task vzctl:19720 blocked for more than 120 seconds
  2019-08-11 14:28       ` Sergey
  2019-08-12  7:12         ` Nikolay A. Fetisov
@ 2019-08-12 10:23         ` Michael Shigorin
  2019-08-13 11:28           ` Sergey
  1 sibling, 1 reply; 8+ messages in thread
From: Michael Shigorin @ 2019-08-12 10:23 UTC (permalink / raw)
  To: sysadmins

On Sun, Aug 11, 2019 at 06:28:00PM +0400, Sergey wrote:
> Хотя можно попробовать тестовый сервер сделать

Или тестовую виртуалку даже, это ж ovz.

-- 
 ---- WBR, Michael Shigorin / http://altlinux.org
  ------ http://opennet.ru / http://anna-news.info


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt168.M80P.2, task vzctl:19720 blocked for more than 120 seconds
  2019-08-12 10:23         ` Michael Shigorin
@ 2019-08-13 11:28           ` Sergey
  0 siblings, 0 replies; 8+ messages in thread
From: Sergey @ 2019-08-13 11:28 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

On Monday 12 August 2019, Michael Shigorin wrote:

> > Хотя можно попробовать тестовый сервер сделать
> 
> Или тестовую виртуалку даже, это ж ovz.
 
Так нужно хост-систему же перезагружать. Другого варианта
воспроизведения у меня нет пока.

-- 
С уважением, Сергей.


^ permalink raw reply	[flat|nested] 8+ messages in thread

end of thread, other threads:[~2019-08-13 11:28 UTC | newest]

Thread overview: 8+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2016-10-22  8:08 [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt144, task vzctl:12751 blocked for more than 120 seconds Sergey
2019-06-29 18:59 ` Sergey
2019-07-31 20:45   ` [Sysadmins] OpenVZ: 2.6.32-ovz-el-alt168.M80P.2, task vzctl:19720 " Sergey
2019-08-02  6:56     ` Nikolay A. Fetisov
2019-08-11 14:28       ` Sergey
2019-08-12  7:12         ` Nikolay A. Fetisov
2019-08-12 10:23         ` Michael Shigorin
2019-08-13 11:28           ` Sergey

ALT Linux sysadmins discussion

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sysadmins/0 sysadmins/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sysadmins sysadmins/ http://lore.altlinux.org/sysadmins \
		sysadmins@lists.altlinux.org sysadmins@lists.altlinux.ru sysadmins@lists.altlinux.com
	public-inbox-index sysadmins

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sysadmins


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git