ALT Linux Sisyphus discussions
 help / color / mirror / Atom feed
* [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
@ 2015-07-09 16:59 Gleb Kulikov
  2015-07-10  6:24 ` Nikolay A. Fetisov
    0 siblings, 2 replies; 13+ messages in thread
From: Gleb Kulikov @ 2015-07-09 16:59 UTC (permalink / raw)
  To: sisyphus


Столкнулся сегодня при настройке новой (наконец-то! :) ) рабочей машины.

С последнего образа была установлена система (вариант KDE4) и сразу-же 
обновлена до сегодняшнего Сизифа.

Мат плата Gigabyte Technology Co., Ltd. Z87X-UD5H/Z87X-UD5H-CF, BIOS F9 
03/18/2014


Было установлено 3 винчестера, все по 3Tb:
	1-ин  HGST HDN724030ALE640
	и 2-а WD RED (WDC WD30EFRX-68EUZN0)

Каких - либо сложностей с установкой не было, за исключением бага с 
intel_iommu=off (на момент установки, я об этом баге не знал, об этом позже)

По-видимому, важно, что на 1-ом диске выделены разделы под /boot, / и LVM; 
/usr и /var находятся на LVM-томах.

Файловая система на /boot = ext2, на / = ext4, на остальных, по большей части, 
XFS.

В момент установки система не "увидела" дисков WD Red (подключенных ко второму 
чипу SATA), поэтому средствами инсталлятора на них ничего не создавалось.

После установки и гугленья стало понятно, что диски не подцепляются из-за 
багов с ПДП. После передачи параметра intel_iommu=off, всё стало хорошо.

Первый звоночек раздался при попытке организовать рэйд-1 (средствами mdraid) 
на дисках WD: мол, дивайсы заняты, идите лесом.
После выполнения dmsetup remove_all, mdadm --create благополучно отработал.

На полученном raid-1 массиве был сделан LVM раздел и созданы LVM тома.

Второй звоночек прогремел, когда я попытался включить (/etc/fstab) 
автопроверку прнимонтированных разделов ( параметры ... 1 2). С некоторой 
вероятностью (> 1/2), systemd НЕ МОГ подмонтировать некоторые из указанных 
разделов (в основном, но не обязательно, лежащих на LVM//RAID). Загрузка 
системы останавливалась на поднятии сетевого стека (и больше ничего 
работающего, хотя на несмонтированных раздеах ещё вообще ничего не было, это 
не камешек, а просто скала в огород Поттеринга и Ко!).

Параметр nofail беде никак не помог, опыт показал, что скорее наоборот: 
ситуация усугубляется.

Что к чему, я ещё не понял и попробовал извернуться, добавив параметры  x-
systemd.automount,noauto и отключив автопроверку (... 0 0). Это помогло... На 
некоторое время.

Подошёл черёд переносить данные. Подключил первый диск (ST3500320AS), худо-
бедно, всё отработало нормально, данные перенёс.

Вот тут внимание: при подключении "нового-старого" диска, он "сел" на 
/dev/sda, на котором до того "висел" системный винчестер.

Заменил диск с данными на второй аналогичный ST3500320AS, и опс! Система не 
грузится с теми-же симптомами. Помогло systemd.automount,noauto второму LVM 
разделу.

Смонтировать диск НЕ ПОЛУЧИЛОСЬ: устройства заняты. Это уже сирена, но времени 
нет, плюнул, загрузился с флешки и в режиму live-cd прекрасно перенёс данные.

Подключаю третий диск. Всё. Теперь система не грузится никак и ни в какой 
позе. Только после отключения автопроверок везде, где можно, система 
загрузилась.

Вот тут только, как скачущий "небрат", я "стал что-то подозревать".

dmsetup info показал, что вновь подключаемые диски, находятся в multipath со 
штатными. Даже запись в /etc/multipath/wwids создалась. Это при том, что 
/etc/multipath.conf вообще, чистый.

Эксперимент показал, что любые подключаемые диски, садящиеся на /dev/sda, sdb, 
оказываются в multipath со штатными. Совершенно бессистемным образом.
То, что данные, НА ПЕРВЫЙ ВЗГЛЯД, не пострадали, считаю чистым везением.

Опять-же, прямой эксперимент показал, что после долгих и вдумчевых скачек с 
dmsetup remove, вновь подключаемые диски нормально монтируются.

СЛОВ НЕТ.

Что это было? Кто виноват и главное, ЧТО ДЕЛАТЬ?

Понятно, что эксплуатация системы, обладающей  такой могучей интуицией, это 
хуже, чем прогулка по минному полю. Надо понимать, что с eSata и прочими 
"горячими штучками", при таком раскладе, можно проститься навсегда?

PS: systemd-221-alt4

-- 
      Салют, /GLeb

UIN: 15341920
jabber://gleb@asd.iao.ru
sip://2387245@sipnet.ru			(telephony)
skype://gleb_kulikov.tomsk		(telephony)


^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
  2015-07-09 16:59 [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг Gleb Kulikov
@ 2015-07-10  6:24 ` Nikolay A. Fetisov
  2015-07-10  7:14   ` REAL
  2015-07-10  8:31   ` glebus
    1 sibling, 2 replies; 13+ messages in thread
From: Nikolay A. Fetisov @ 2015-07-10  6:24 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

Здравствуйте!

В Чт, 09/07/2015 в 22:59 +0600, Gleb Kulikov пишет:
> Столкнулся сегодня при настройке новой (наконец-то! :) ) рабочей 
> машины.
> 
> ....
> Первый звоночек раздался при попытке организовать рэйд-1 (средствами 
> mdraid) 
> на дисках WD: мол, дивайсы заняты, идите лесом.

А ядро какое?

У меня похожее есть на нескольких разных машинах с Sisyphus,
udev 219-alt2 и 221-alt3, ядра ovz-el. И sysvinit - _не_ systemd.

В частности, есть сервер, текущий t7. Был обновлён до Sisyphus,
в начале июня, оставлен  sysinit. После перезагрузки - ошибка на этапе
монтирования разделов /dev/sdbN.

На сервере два диска, в fstab  / и swap прописаны установщиком через
UUID, остальное - через /dev/sd{a,b}N. Ни MD-RAID, ни LVM нет.

При этом:
- устройства в /dev/ есть, и они внешне правильные (т.е. тип, 
  major/minor, права и прочее корректны),
# ls /dev/sdb*
/dev/sdb  /dev/sdb1  /dev/sdb2  /dev/sdb3  /dev/sdb4

- /dev/sdb читается, fdisk раздёлы на нём видит,

- чтение с /dev/sdbN выдаёт ошибку:
# dd if=/dev/sdb1 of=/dev/null bs=1M 
dd: failed to open ‘/dev/sdb1’: No such device or address

- соответственно, blkid на разделе не выдаёт ничего:
# blkid /dev/sdb1
# 

- а такие же разделы на sda прекрасно доступны.


Перечитываем руками таблицу разделов:
# partprobe /dev/sdb

После этого:
# blkid /dev/sdb1
/dev/sdb1: UUID="35c3758c-2118-4aeb-b8a9-ece18f4324f7" TYPE="ext4"

Тип файловой системы и UUID правильные.

Но, тем не менее:
# mount /dev/sdb1 /mnt/foo
mount: /dev/sdb1 is already mounted or /mnt/foo busy

При этом непосредственно через UUID диск монтируется:
# mount /dev/disk/by-uuid/35c3758c-2118-4aeb-b8a9-ece18f4324f7
/mnt/foo/
# 

До udev-1:217-alt3 включительно проблемы не было.

Вопрос с загрузкой был решён через переход в fstab с имён устройств на
UUID.

Но, тем не менее, при смонтированных через UUID разделах и вполне
работающей системе, те же разделы через /dev/sdbN остаются 
недоступными:

# blkid /dev/sdb1
# dd if=/dev/sdb1 of=/dev/null bs=1M count=1
dd: failed to open ‘/dev/sdb1’: No such device or address

Могут, через какое-то время, сами перечитаться с записью об этом в 
dmesg, и появиться. А могут не перечитываться, уже неделями.



Поскольку по факту у нас ядра ovz-el (полноценно) работать сейчас не
могут, поднимать этот вопрос после удара ручкой грабелек даже не стал.

-- 
С уважением,
Николай Фетисов



^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
  2015-07-10  6:24 ` Nikolay A. Fetisov
@ 2015-07-10  7:14   ` REAL
  2015-07-10  8:31   ` glebus
  1 sibling, 0 replies; 13+ messages in thread
From: REAL @ 2015-07-10  7:14 UTC (permalink / raw)
  To: naf, ALT Linux Sisyphus discussions

10.07.2015 13:24, Nikolay A. Fetisov пишет:
> У меня похожее есть на нескольких разных машинах с Sisyphus,
> udev 219-alt2 и 221-alt3, ядра ovz-el. И sysvinit - _не_ systemd.

Ну, поскольку udev сейчас - часть systemd...

-- 

REAL aka Евгений Ростовцев, программист ЦНИТ КемГУ



^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
  2015-07-10  6:24 ` Nikolay A. Fetisov
  2015-07-10  7:14   ` REAL
@ 2015-07-10  8:31   ` glebus
  2015-07-13  9:59     ` Alexei V. Mezin
  1 sibling, 1 reply; 13+ messages in thread
From: glebus @ 2015-07-10  8:31 UTC (permalink / raw)
  To: naf, ALT Linux Sisyphus discussions

В письме от 10 июля 2015 09:24:23 пользователь Nikolay A. Fetisov написал:
> 
> А ядро какое?
> 
> У меня похожее есть на нескольких разных машинах с Sisyphus,
> udev 219-alt2 и 221-alt3, ядра ovz-el. И sysvinit - _не_ systemd.

3.14.47-std-def

Похоже, вина НЕ systemd (во всяком случае, не напрямую).

Виноват multipathd (возможно, не без помощи udev, надо разбираться).
Он совершенно произвольно "автоматически" помещает устройства в multipath. 
Бага! И это не просто блокер, это такой вот СТОП аршинными буквами! Или 
диверсия :) --- сколько будет мистических потерь данных, просто караул.

Пока вывернулся размещением sda в blacklist /etc/multipath.conf

Явная вина systemd только в непродуманном алгоритме продолжения загрузки при 
недоступности монтируемого устройства: система должна хоть как-то подниматься, 
или хотя бы падать в аварийную консоль. 

И да, совершенно непонятно, почему появление параметра nofail не просто 
игнорируется, а усугубляет ситуацию.

--

/GL

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
  @ 2015-07-10 22:07   ` Sergey
  2015-07-10 22:55     ` Anton Gorlov
  2015-07-12  9:38   ` Gleb Kulikov
  1 sibling, 1 reply; 13+ messages in thread
From: Sergey @ 2015-07-10 22:07 UTC (permalink / raw)
  To: sisyphus

On Friday 10 July 2015, Alexey Shabalin wrote:

> б) рассмотрите современные варианты. Например lvm сам умеет raid, mdadm не
> нужен. Так же raid умеет btrfs.

btrfs я бы не спешил так использовать. Она, сама по себе, не без проблем.
Например, в плане скорости. RAID у LVM - тоже вопрос. А mdadm, как раз,
проверенное, рабочее и предсказуемое решение.

-- 
С уважением, Сергей
a_s_y@sama.ru


^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
  2015-07-10 22:07   ` Sergey
@ 2015-07-10 22:55     ` Anton Gorlov
  0 siblings, 0 replies; 13+ messages in thread
From: Anton Gorlov @ 2015-07-10 22:55 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

11.07.2015 01:07, Sergey пишет:
> btrfs я бы не спешил так использовать. Она, сама по себе, не без проблем.
> Например, в плане скорости. RAID у LVM - тоже вопрос. А mdadm, как раз,
> проверенное, рабочее и предсказуемое решение.
И понятное как чинить если что.
развалившийся lvm-RAID так просто уже не починить,если что


^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
    2015-07-10 22:07   ` Sergey
@ 2015-07-12  9:38   ` Gleb Kulikov
    1 sibling, 1 reply; 13+ messages in thread
From: Gleb Kulikov @ 2015-07-12  9:38 UTC (permalink / raw)
  To: shaba, ALT Linux Sisyphus discussions

В письме от Пятница 10 июля 2015 15:40:40 пользователь Alexey Shabalin 
написал:

> а) удалите multipath, если не используете.

Как? При остановленном multipathd, raid не монтируется.

> б) рассмотрите современные варианты. Например lvm сам умеет raid, mdadm не
> нужен.

Про это я знаю, но не совсем понимаю (и не нашёл), как чинить "рассыпавшийся" 
рейд. Где можно почитать?

> Так же raid умеет btrfs.

btrfs пока что не рассматриваю в качестве "боевого" решения. Опять-таки, 
неочевидно, что делать в случае аварии.


-- 
      С Уважением, /GLeb

UIN: 15341920
jabber://gleb@asd.iao.ru
sip://2387245@sipnet.ru		(telephony)
skype://gleb_kulikov.tomsk	                           (telephony)

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
  2015-07-10  8:31   ` glebus
@ 2015-07-13  9:59     ` Alexei V. Mezin
  2015-07-13 10:13       ` Хихин Руслан
  0 siblings, 1 reply; 13+ messages in thread
From: Alexei V. Mezin @ 2015-07-13  9:59 UTC (permalink / raw)
  To: sisyphus

10.07.2015 11:31, glebus@asd.iao.ru пишет:

>
> Явная вина systemd только в непродуманном алгоритме продолжения загрузки при
> недоступности монтируемого устройства: система должна хоть как-то подниматься,
> или хотя бы падать в аварийную консоль.
>

Добро пожаловать в клуб! :(

Причем беда подстерегает не только на серверах с кучей массивов. На 
домашней машине она тут как тут: достаточно иметь NTFS-раздел с 
параллельно установленной виндовз. После нештатного завершения виндовз 
остается метка, что диск был некорректо размонтирован, и все, приехали 
-- загрузка линукса становится невозможной, аварийной консоли нет и т.п.



^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
  2015-07-13  9:59     ` Alexei V. Mezin
@ 2015-07-13 10:13       ` Хихин Руслан
  2015-07-14  6:29         ` glebus
  0 siblings, 1 reply; 13+ messages in thread
From: Хихин Руслан @ 2015-07-13 10:13 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 531 bytes --]

Здравствуйте !
On Monday 13 July 2015 12:59:57 Alexei V. Mezin написал(а):

> Добро пожаловать в клуб! :(
>
> Причем беда подстерегает не только на серверах с кучей массивов. На
> домашней машине она тут как тут: достаточно иметь NTFS-раздел с
> параллельно установленной виндовз. После нештатного завершения виндовз
> остается метка, что диск был некорректо размонтирован, и все, приехали
> -- загрузка линукса становится невозможной, аварийной консоли нет и т.п.

Ну, это-то через nfail решается.

-- 
C уважением, Хихин Руслан.

[-- Attachment #2: This is a digitally signed message part. --]
[-- Type: application/pgp-signature, Size: 198 bytes --]

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
  2015-07-13 10:13       ` Хихин Руслан
@ 2015-07-14  6:29         ` glebus
  0 siblings, 0 replies; 13+ messages in thread
From: glebus @ 2015-07-14  6:29 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

В письме от 2015 июля 13  13:13:01 пользователь Хихин Руслан написал:
> Здравствуйте !
> 
> On Monday 13 July 2015 12:59:57 Alexei V. Mezin написал(а):
> > Добро пожаловать в клуб! :(
> > 
> > Причем беда подстерегает не только на серверах с кучей массивов. На
> > домашней машине она тут как тут: достаточно иметь NTFS-раздел с
> > параллельно установленной виндовз. После нештатного завершения виндовз
> > остается метка, что диск был некорректо размонтирован, и все, приехали
> > -- загрузка линукса становится невозможной, аварийной консоли нет и т.п.
> 
> Ну, это-то через nfail решается.

на счёт nofail не знаю, сложилось впечатление, что он просто не работает.

Известным местом чую, что вся проблема не стоит и выеденного яйца: скорее 
всего, фэйл с остановившейся загрузкой вызван гонками при попытке смонтировать 
ресурс  и одновременно запустить прочие задания. Решить --- элементарно, 
ввести параметр, строго определяющий порядок монтирования ресурсов и 
запрещающий, в течении его жизни, параллельный запуск заданий.
Неужели этого не сделано? Нет ли в systemd соответствующего параметра?  я не 
нашёл, но вдруг? :)

--

/GL

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
  @ 2015-07-14 12:03       ` Sergey
  2015-07-14 18:02       ` Anton Gorlov
  2015-07-15  3:41       ` glebus
  2 siblings, 0 replies; 13+ messages in thread
From: Sergey @ 2015-07-14 12:03 UTC (permalink / raw)
  To: shaba, ALT Linux Sisyphus discussions

On Tuesday 14 July 2015, Alexey Shabalin wrote:

>  Погодите, о каком боевом решении идет речь? на домашней
>  машинке и сизифе? :) 

Да хоть бы и так. Домашняя машинка и Сизиф не повод, чтобы
всё разломать. :-)

А какие преимущества у LVM RAID над mdadm ?

-- 
С уважением, Сергей.


^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
    2015-07-14 12:03       ` Sergey
@ 2015-07-14 18:02       ` Anton Gorlov
  2015-07-15  3:41       ` glebus
  2 siblings, 0 replies; 13+ messages in thread
From: Anton Gorlov @ 2015-07-14 18:02 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

14.07.2015 12:38, Alexey Shabalin пишет:
> ок, положу в следующий раз документацию из doc/ в lvm2 (doc/lvm2-raid.txt)
> из документации:
> lvconvert --replace /dev/sdd1 --replace /dev/sde1 vg/lv /dev/sd[bc]1
> lvconvert --repair vg/lv
> vgreduce --removemissing

а если на сервере выпал 1 диск. резервного нет и выпавший просто
меняется на "новый, чистый"
или вообще выпало по 1 диску в 2 разных "плечах" 10  рейда..то есть
сразу 2 диска?


^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
    2015-07-14 12:03       ` Sergey
  2015-07-14 18:02       ` Anton Gorlov
@ 2015-07-15  3:41       ` glebus
  2 siblings, 0 replies; 13+ messages in thread
From: glebus @ 2015-07-15  3:41 UTC (permalink / raw)
  To: shaba, ALT Linux Sisyphus discussions

В письме от 2015 июля 14  12:38:06 пользователь Alexey Shabalin написал:

> если raid не монтируется, то значит вы как-то странно его сделали.

делал стандартно
при выключенном multipathd, рейд не монтируется. Я счёл, что это новации новых 
версий

> >  Погодите, о каком боевом решении идет речь? на домашней машинке и
> >  сизифе?

машинка не домашняя :)
наверное, риски я понимаю :)

нестабильность системы не означает, что данные должны быть утеряны! 

--
/GL

^ permalink raw reply	[flat|nested] 13+ messages in thread

end of thread, other threads:[~2015-07-15  3:41 UTC | newest]

Thread overview: 13+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2015-07-09 16:59 [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг Gleb Kulikov
2015-07-10  6:24 ` Nikolay A. Fetisov
2015-07-10  7:14   ` REAL
2015-07-10  8:31   ` glebus
2015-07-13  9:59     ` Alexei V. Mezin
2015-07-13 10:13       ` Хихин Руслан
2015-07-14  6:29         ` glebus
2015-07-10 22:07   ` Sergey
2015-07-10 22:55     ` Anton Gorlov
2015-07-12  9:38   ` Gleb Kulikov
2015-07-14 12:03       ` Sergey
2015-07-14 18:02       ` Anton Gorlov
2015-07-15  3:41       ` glebus

ALT Linux Sisyphus discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
		sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
	public-inbox-index sisyphus

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sisyphus


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git