* [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
@ 2015-07-09 16:59 Gleb Kulikov
2015-07-10 6:24 ` Nikolay A. Fetisov
0 siblings, 2 replies; 13+ messages in thread
From: Gleb Kulikov @ 2015-07-09 16:59 UTC (permalink / raw)
To: sisyphus
Столкнулся сегодня при настройке новой (наконец-то! :) ) рабочей машины.
С последнего образа была установлена система (вариант KDE4) и сразу-же
обновлена до сегодняшнего Сизифа.
Мат плата Gigabyte Technology Co., Ltd. Z87X-UD5H/Z87X-UD5H-CF, BIOS F9
03/18/2014
Было установлено 3 винчестера, все по 3Tb:
1-ин HGST HDN724030ALE640
и 2-а WD RED (WDC WD30EFRX-68EUZN0)
Каких - либо сложностей с установкой не было, за исключением бага с
intel_iommu=off (на момент установки, я об этом баге не знал, об этом позже)
По-видимому, важно, что на 1-ом диске выделены разделы под /boot, / и LVM;
/usr и /var находятся на LVM-томах.
Файловая система на /boot = ext2, на / = ext4, на остальных, по большей части,
XFS.
В момент установки система не "увидела" дисков WD Red (подключенных ко второму
чипу SATA), поэтому средствами инсталлятора на них ничего не создавалось.
После установки и гугленья стало понятно, что диски не подцепляются из-за
багов с ПДП. После передачи параметра intel_iommu=off, всё стало хорошо.
Первый звоночек раздался при попытке организовать рэйд-1 (средствами mdraid)
на дисках WD: мол, дивайсы заняты, идите лесом.
После выполнения dmsetup remove_all, mdadm --create благополучно отработал.
На полученном raid-1 массиве был сделан LVM раздел и созданы LVM тома.
Второй звоночек прогремел, когда я попытался включить (/etc/fstab)
автопроверку прнимонтированных разделов ( параметры ... 1 2). С некоторой
вероятностью (> 1/2), systemd НЕ МОГ подмонтировать некоторые из указанных
разделов (в основном, но не обязательно, лежащих на LVM//RAID). Загрузка
системы останавливалась на поднятии сетевого стека (и больше ничего
работающего, хотя на несмонтированных раздеах ещё вообще ничего не было, это
не камешек, а просто скала в огород Поттеринга и Ко!).
Параметр nofail беде никак не помог, опыт показал, что скорее наоборот:
ситуация усугубляется.
Что к чему, я ещё не понял и попробовал извернуться, добавив параметры x-
systemd.automount,noauto и отключив автопроверку (... 0 0). Это помогло... На
некоторое время.
Подошёл черёд переносить данные. Подключил первый диск (ST3500320AS), худо-
бедно, всё отработало нормально, данные перенёс.
Вот тут внимание: при подключении "нового-старого" диска, он "сел" на
/dev/sda, на котором до того "висел" системный винчестер.
Заменил диск с данными на второй аналогичный ST3500320AS, и опс! Система не
грузится с теми-же симптомами. Помогло systemd.automount,noauto второму LVM
разделу.
Смонтировать диск НЕ ПОЛУЧИЛОСЬ: устройства заняты. Это уже сирена, но времени
нет, плюнул, загрузился с флешки и в режиму live-cd прекрасно перенёс данные.
Подключаю третий диск. Всё. Теперь система не грузится никак и ни в какой
позе. Только после отключения автопроверок везде, где можно, система
загрузилась.
Вот тут только, как скачущий "небрат", я "стал что-то подозревать".
dmsetup info показал, что вновь подключаемые диски, находятся в multipath со
штатными. Даже запись в /etc/multipath/wwids создалась. Это при том, что
/etc/multipath.conf вообще, чистый.
Эксперимент показал, что любые подключаемые диски, садящиеся на /dev/sda, sdb,
оказываются в multipath со штатными. Совершенно бессистемным образом.
То, что данные, НА ПЕРВЫЙ ВЗГЛЯД, не пострадали, считаю чистым везением.
Опять-же, прямой эксперимент показал, что после долгих и вдумчевых скачек с
dmsetup remove, вновь подключаемые диски нормально монтируются.
СЛОВ НЕТ.
Что это было? Кто виноват и главное, ЧТО ДЕЛАТЬ?
Понятно, что эксплуатация системы, обладающей такой могучей интуицией, это
хуже, чем прогулка по минному полю. Надо понимать, что с eSata и прочими
"горячими штучками", при таком раскладе, можно проститься навсегда?
PS: systemd-221-alt4
--
Салют, /GLeb
UIN: 15341920
jabber://gleb@asd.iao.ru
sip://2387245@sipnet.ru (telephony)
skype://gleb_kulikov.tomsk (telephony)
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
2015-07-09 16:59 [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг Gleb Kulikov
@ 2015-07-10 6:24 ` Nikolay A. Fetisov
2015-07-10 7:14 ` REAL
2015-07-10 8:31 ` glebus
1 sibling, 2 replies; 13+ messages in thread
From: Nikolay A. Fetisov @ 2015-07-10 6:24 UTC (permalink / raw)
To: ALT Linux Sisyphus discussions
Здравствуйте!
В Чт, 09/07/2015 в 22:59 +0600, Gleb Kulikov пишет:
> Столкнулся сегодня при настройке новой (наконец-то! :) ) рабочей
> машины.
>
> ....
> Первый звоночек раздался при попытке организовать рэйд-1 (средствами
> mdraid)
> на дисках WD: мол, дивайсы заняты, идите лесом.
А ядро какое?
У меня похожее есть на нескольких разных машинах с Sisyphus,
udev 219-alt2 и 221-alt3, ядра ovz-el. И sysvinit - _не_ systemd.
В частности, есть сервер, текущий t7. Был обновлён до Sisyphus,
в начале июня, оставлен sysinit. После перезагрузки - ошибка на этапе
монтирования разделов /dev/sdbN.
На сервере два диска, в fstab / и swap прописаны установщиком через
UUID, остальное - через /dev/sd{a,b}N. Ни MD-RAID, ни LVM нет.
При этом:
- устройства в /dev/ есть, и они внешне правильные (т.е. тип,
major/minor, права и прочее корректны),
# ls /dev/sdb*
/dev/sdb /dev/sdb1 /dev/sdb2 /dev/sdb3 /dev/sdb4
- /dev/sdb читается, fdisk раздёлы на нём видит,
- чтение с /dev/sdbN выдаёт ошибку:
# dd if=/dev/sdb1 of=/dev/null bs=1M
dd: failed to open ‘/dev/sdb1’: No such device or address
- соответственно, blkid на разделе не выдаёт ничего:
# blkid /dev/sdb1
#
- а такие же разделы на sda прекрасно доступны.
Перечитываем руками таблицу разделов:
# partprobe /dev/sdb
После этого:
# blkid /dev/sdb1
/dev/sdb1: UUID="35c3758c-2118-4aeb-b8a9-ece18f4324f7" TYPE="ext4"
Тип файловой системы и UUID правильные.
Но, тем не менее:
# mount /dev/sdb1 /mnt/foo
mount: /dev/sdb1 is already mounted or /mnt/foo busy
При этом непосредственно через UUID диск монтируется:
# mount /dev/disk/by-uuid/35c3758c-2118-4aeb-b8a9-ece18f4324f7
/mnt/foo/
#
До udev-1:217-alt3 включительно проблемы не было.
Вопрос с загрузкой был решён через переход в fstab с имён устройств на
UUID.
Но, тем не менее, при смонтированных через UUID разделах и вполне
работающей системе, те же разделы через /dev/sdbN остаются
недоступными:
# blkid /dev/sdb1
# dd if=/dev/sdb1 of=/dev/null bs=1M count=1
dd: failed to open ‘/dev/sdb1’: No such device or address
Могут, через какое-то время, сами перечитаться с записью об этом в
dmesg, и появиться. А могут не перечитываться, уже неделями.
Поскольку по факту у нас ядра ovz-el (полноценно) работать сейчас не
могут, поднимать этот вопрос после удара ручкой грабелек даже не стал.
--
С уважением,
Николай Фетисов
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
2015-07-10 6:24 ` Nikolay A. Fetisov
@ 2015-07-10 7:14 ` REAL
2015-07-10 8:31 ` glebus
1 sibling, 0 replies; 13+ messages in thread
From: REAL @ 2015-07-10 7:14 UTC (permalink / raw)
To: naf, ALT Linux Sisyphus discussions
10.07.2015 13:24, Nikolay A. Fetisov пишет:
> У меня похожее есть на нескольких разных машинах с Sisyphus,
> udev 219-alt2 и 221-alt3, ядра ovz-el. И sysvinit - _не_ systemd.
Ну, поскольку udev сейчас - часть systemd...
--
REAL aka Евгений Ростовцев, программист ЦНИТ КемГУ
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
2015-07-10 6:24 ` Nikolay A. Fetisov
2015-07-10 7:14 ` REAL
@ 2015-07-10 8:31 ` glebus
2015-07-13 9:59 ` Alexei V. Mezin
1 sibling, 1 reply; 13+ messages in thread
From: glebus @ 2015-07-10 8:31 UTC (permalink / raw)
To: naf, ALT Linux Sisyphus discussions
В письме от 10 июля 2015 09:24:23 пользователь Nikolay A. Fetisov написал:
>
> А ядро какое?
>
> У меня похожее есть на нескольких разных машинах с Sisyphus,
> udev 219-alt2 и 221-alt3, ядра ovz-el. И sysvinit - _не_ systemd.
3.14.47-std-def
Похоже, вина НЕ systemd (во всяком случае, не напрямую).
Виноват multipathd (возможно, не без помощи udev, надо разбираться).
Он совершенно произвольно "автоматически" помещает устройства в multipath.
Бага! И это не просто блокер, это такой вот СТОП аршинными буквами! Или
диверсия :) --- сколько будет мистических потерь данных, просто караул.
Пока вывернулся размещением sda в blacklist /etc/multipath.conf
Явная вина systemd только в непродуманном алгоритме продолжения загрузки при
недоступности монтируемого устройства: система должна хоть как-то подниматься,
или хотя бы падать в аварийную консоль.
И да, совершенно непонятно, почему появление параметра nofail не просто
игнорируется, а усугубляет ситуацию.
--
/GL
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
2015-07-10 8:31 ` glebus
@ 2015-07-13 9:59 ` Alexei V. Mezin
2015-07-13 10:13 ` Хихин Руслан
0 siblings, 1 reply; 13+ messages in thread
From: Alexei V. Mezin @ 2015-07-13 9:59 UTC (permalink / raw)
To: sisyphus
10.07.2015 11:31, glebus@asd.iao.ru пишет:
>
> Явная вина systemd только в непродуманном алгоритме продолжения загрузки при
> недоступности монтируемого устройства: система должна хоть как-то подниматься,
> или хотя бы падать в аварийную консоль.
>
Добро пожаловать в клуб! :(
Причем беда подстерегает не только на серверах с кучей массивов. На
домашней машине она тут как тут: достаточно иметь NTFS-раздел с
параллельно установленной виндовз. После нештатного завершения виндовз
остается метка, что диск был некорректо размонтирован, и все, приехали
-- загрузка линукса становится невозможной, аварийной консоли нет и т.п.
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
2015-07-13 9:59 ` Alexei V. Mezin
@ 2015-07-13 10:13 ` Хихин Руслан
2015-07-14 6:29 ` glebus
0 siblings, 1 reply; 13+ messages in thread
From: Хихин Руслан @ 2015-07-13 10:13 UTC (permalink / raw)
To: sisyphus
[-- Attachment #1: Type: text/plain, Size: 531 bytes --]
Здравствуйте !
On Monday 13 July 2015 12:59:57 Alexei V. Mezin написал(а):
> Добро пожаловать в клуб! :(
>
> Причем беда подстерегает не только на серверах с кучей массивов. На
> домашней машине она тут как тут: достаточно иметь NTFS-раздел с
> параллельно установленной виндовз. После нештатного завершения виндовз
> остается метка, что диск был некорректо размонтирован, и все, приехали
> -- загрузка линукса становится невозможной, аварийной консоли нет и т.п.
Ну, это-то через nfail решается.
--
C уважением, Хихин Руслан.
[-- Attachment #2: This is a digitally signed message part. --]
[-- Type: application/pgp-signature, Size: 198 bytes --]
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
2015-07-13 10:13 ` Хихин Руслан
@ 2015-07-14 6:29 ` glebus
0 siblings, 0 replies; 13+ messages in thread
From: glebus @ 2015-07-14 6:29 UTC (permalink / raw)
To: ALT Linux Sisyphus discussions
В письме от 2015 июля 13 13:13:01 пользователь Хихин Руслан написал:
> Здравствуйте !
>
> On Monday 13 July 2015 12:59:57 Alexei V. Mezin написал(а):
> > Добро пожаловать в клуб! :(
> >
> > Причем беда подстерегает не только на серверах с кучей массивов. На
> > домашней машине она тут как тут: достаточно иметь NTFS-раздел с
> > параллельно установленной виндовз. После нештатного завершения виндовз
> > остается метка, что диск был некорректо размонтирован, и все, приехали
> > -- загрузка линукса становится невозможной, аварийной консоли нет и т.п.
>
> Ну, это-то через nfail решается.
на счёт nofail не знаю, сложилось впечатление, что он просто не работает.
Известным местом чую, что вся проблема не стоит и выеденного яйца: скорее
всего, фэйл с остановившейся загрузкой вызван гонками при попытке смонтировать
ресурс и одновременно запустить прочие задания. Решить --- элементарно,
ввести параметр, строго определяющий порядок монтирования ресурсов и
запрещающий, в течении его жизни, параллельный запуск заданий.
Неужели этого не сделано? Нет ли в systemd соответствующего параметра? я не
нашёл, но вдруг? :)
--
/GL
^ permalink raw reply [flat|nested] 13+ messages in thread
[parent not found: <CAEdvWkSScoWOH=UC+S_6FX+s2dpoo9bhD+JeSe3V+D=+CF+w4Q@mail.gmail.com>]
* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
@ 2015-07-10 22:07 ` Sergey
2015-07-10 22:55 ` Anton Gorlov
2015-07-12 9:38 ` Gleb Kulikov
1 sibling, 1 reply; 13+ messages in thread
From: Sergey @ 2015-07-10 22:07 UTC (permalink / raw)
To: sisyphus
On Friday 10 July 2015, Alexey Shabalin wrote:
> б) рассмотрите современные варианты. Например lvm сам умеет raid, mdadm не
> нужен. Так же raid умеет btrfs.
btrfs я бы не спешил так использовать. Она, сама по себе, не без проблем.
Например, в плане скорости. RAID у LVM - тоже вопрос. А mdadm, как раз,
проверенное, рабочее и предсказуемое решение.
--
С уважением, Сергей
a_s_y@sama.ru
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
2015-07-10 22:07 ` Sergey
@ 2015-07-10 22:55 ` Anton Gorlov
0 siblings, 0 replies; 13+ messages in thread
From: Anton Gorlov @ 2015-07-10 22:55 UTC (permalink / raw)
To: ALT Linux Sisyphus discussions
11.07.2015 01:07, Sergey пишет:
> btrfs я бы не спешил так использовать. Она, сама по себе, не без проблем.
> Например, в плане скорости. RAID у LVM - тоже вопрос. А mdadm, как раз,
> проверенное, рабочее и предсказуемое решение.
И понятное как чинить если что.
развалившийся lvm-RAID так просто уже не починить,если что
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг
2015-07-10 22:07 ` Sergey
@ 2015-07-12 9:38 ` Gleb Kulikov
1 sibling, 1 reply; 13+ messages in thread
From: Gleb Kulikov @ 2015-07-12 9:38 UTC (permalink / raw)
To: shaba, ALT Linux Sisyphus discussions
В письме от Пятница 10 июля 2015 15:40:40 пользователь Alexey Shabalin
написал:
> а) удалите multipath, если не используете.
Как? При остановленном multipathd, raid не монтируется.
> б) рассмотрите современные варианты. Например lvm сам умеет raid, mdadm не
> нужен.
Про это я знаю, но не совсем понимаю (и не нашёл), как чинить "рассыпавшийся"
рейд. Где можно почитать?
> Так же raid умеет btrfs.
btrfs пока что не рассматриваю в качестве "боевого" решения. Опять-таки,
неочевидно, что делать в случае аварии.
--
С Уважением, /GLeb
UIN: 15341920
jabber://gleb@asd.iao.ru
sip://2387245@sipnet.ru (telephony)
skype://gleb_kulikov.tomsk (telephony)
^ permalink raw reply [flat|nested] 13+ messages in thread
end of thread, other threads:[~2015-07-15 3:41 UTC | newest]
Thread overview: 13+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2015-07-09 16:59 [sisyphus] ОСТОРОЖНО! Противоестественный интеллект (systemd?) и эпичнейший баг Gleb Kulikov
2015-07-10 6:24 ` Nikolay A. Fetisov
2015-07-10 7:14 ` REAL
2015-07-10 8:31 ` glebus
2015-07-13 9:59 ` Alexei V. Mezin
2015-07-13 10:13 ` Хихин Руслан
2015-07-14 6:29 ` glebus
2015-07-10 22:07 ` Sergey
2015-07-10 22:55 ` Anton Gorlov
2015-07-12 9:38 ` Gleb Kulikov
2015-07-14 12:03 ` Sergey
2015-07-14 18:02 ` Anton Gorlov
2015-07-15 3:41 ` glebus
ALT Linux Sisyphus discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
public-inbox-index sisyphus
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.sisyphus
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git