* [Sysadmins] P7: Проблема с softRAID при старте системы
@ 2013-08-08 9:58 Alex Moskalenko
2013-08-08 11:22 ` Michael Shigorin
` (3 more replies)
0 siblings, 4 replies; 13+ messages in thread
From: Alex Moskalenko @ 2013-08-08 9:58 UTC (permalink / raw)
To: ALT Linux sysadmins' discussion
Здравствуйте.
Столкнулся с проблемой запуска массива softRAID на p7.
Исходные данные:
- p7, обновленный с t6 (OpenVZ HN)
- ядро 2.6.32-ovz-el-alt100
- 6 жестких дисков SATA с разделами следующей конфигурации:
/dev/sda1 2048 2099199 1048576 82 Linux своп / Solaris
/dev/sda2 * 2099200 10487807 4194304 fd Автоопределение
Linux raid
/dev/sda3 10487808 976773167 483142680 fd Автоопределение
Linux raid
/dev/sdb1 2048 2099199 1048576 82 Linux своп / Solaris
/dev/sdb2 * 2099200 10487807 4194304 fd Автоопределение
Linux raid
/dev/sdb3 10487808 976773167 483142680 fd Автоопределение
Linux raid
/dev/sdc1 2048 943720447 471859200 83 Linux
/dev/sdd1 2048 943720447 471859200 83 Linux
/dev/sde1 2048 943720447 471859200 83 Linux
/dev/sdf1 2048 943720447 471859200 83 Linux
- конфигурация программного RAID (в рабочем состоянии):
Personalities : [raid1] [raid10]
md10 : active raid10 sdf1[1] sde1[2] sdd1[3] sdc1[0]
943715968 blocks super 1.2 64K chunks 2 near-copies [4/4] [UUUU]
bitmap: 21/450 pages [84KB], 1024KB chunk, file: /_bitmap_md10
md1 : active raid1 sda3[0] sdb3[1]
483142592 blocks [2/2] [UU]
md0 : active raid1 sda2[0] sdb2[1]
4193216 blocks [2/2] [UU]
unused devices: <none>
- содержимое mdadm.conf
MAILADDR root
PROGRAM /sbin/mdadm-syslog-events
DEVICE partitions
AUTO -all
ARRAY /dev/md0 metadata=0.90 UUID=4d0cfd09:8028bd31:6a6c0f79:2a1fd6e4
ARRAY /dev/md1 metadata=0.90 UUID=81d13c13:3eafcfa6:6114a8e3:33388138
ARRAY /dev/md10 metadata=1.2 bitmap=/_bitmap_md10 name=10
UUID=984b5bcc:e24a00fc:e605dba0:46495932
- установленные пакеты:
make-initrd-lvm-0.8.5-alt1
make-initrd-0.8.5-alt1
make-initrd-devmapper-0.8.5-alt1
startup-0.9.8.38-alt1
mdadm-3.2.6-alt1
md0 - корень системы, md1 и md10 - LVM PVs.
При загрузке системы md0 и md1 собираются и запускаются автоматически
ядром в initrd. Монтируется корень. Далее появляется сообщение о
невозможности запустить массивы RAID с предложением подождать минуту или
попасть в шелл. При этом состояние массивов следующее:
Personalities : [raid1]
md10 : inactive sdf1[1](S) sde1[2](S) sdc1[0](S) sdd1[3](S)
1887432704 blocks super 1.2
md1 : active raid1 sda3[0] sdb3[1]
483142592 blocks [2/2] [UU]
md0 : active raid1 sda2[0] sdb2[1]
4193216 blocks [2/2] [UU]
unused devices: <none>
Команда mdadm --assemble --scan (вызываемая из
/etc/rc.d/scripts/raidstart) возвращает 2 (недостаточно устройств для
старта массива), что и вызывает сообщение о невозможности запустить
массивы RAID.
При этом, если выполнить mdadm --run /dev/md10 - массив стартует
(правда, без bitmap'а).
Если выполнить mdadm --stop /dev/md10; for i in c d e f; do mdadm
--incremental /dev/sd${i}1 --offroot; done - массив md10 успешно
стартует, причем с bitmap'ом. Команда mdadm --icnremental ... --offroot
взята из правила udev 64-md-raid.rules.
Выполнение mdadm --stop /dev/md10; mdadm --assemble --scan также
приводит к успешному запуску массива.
Прошу помочь разобраться в этой проблеме.
Я не понимаю, почему сборка массива udev'ом, выполняемая при уже
смонтированном корне (/etc/mdadm.conf и /_bitmap_md10 уже доступны), в
итоге дает неактивный массив, а все те же команды, выполненные вручную,
отрабатывают как ожидается. Единственная мысль - udev все делает слишком
"параллельно", из-за чего при инкрементальном добавлении устройств в
массив mdadm всегда считает, что не все устройства еще добавлены, и в
результате не запускает массив.
PS Ранее в той же конфигурации, но на p6, никаких проблем с запуском
md10 не наблюдалось - система стартовала в штатном режиме.
--
WBR, Alex Moskalenko
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] P7: Проблема с softRAID при старте системы
2013-08-08 9:58 [Sysadmins] P7: Проблема с softRAID при старте системы Alex Moskalenko
@ 2013-08-08 11:22 ` Michael Shigorin
2013-08-08 11:52 ` Alex Moskalenko
2013-08-12 12:40 ` Anton Farygin
` (2 subsequent siblings)
3 siblings, 1 reply; 13+ messages in thread
From: Michael Shigorin @ 2013-08-08 11:22 UTC (permalink / raw)
To: ALT Linux sysadmins' discussion
On Thu, Aug 08, 2013 at 01:58:21PM +0400, Alex Moskalenko wrote:
> - установленные пакеты:
> make-initrd-lvm-0.8.5-alt1
> make-initrd-0.8.5-alt1
> make-initrd-devmapper-0.8.5-alt1
> startup-0.9.8.38-alt1
> mdadm-3.2.6-alt1
Не помню точно, но может недоставать make-initrd-mdadm.
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] P7: Проблема с softRAID при старте системы
2013-08-08 11:22 ` Michael Shigorin
@ 2013-08-08 11:52 ` Alex Moskalenko
0 siblings, 1 reply; 13+ messages in thread
From: Alex Moskalenko @ 2013-08-08 11:52 UTC (permalink / raw)
To: sysadmins
08.08.2013 15:22, Michael Shigorin пишет:
> On Thu, Aug 08, 2013 at 01:58:21PM +0400, Alex Moskalenko wrote:
>> - установленные пакеты:
>> make-initrd-lvm-0.8.5-alt1
>> make-initrd-0.8.5-alt1
>> make-initrd-devmapper-0.8.5-alt1
>> startup-0.9.8.38-alt1
>> mdadm-3.2.6-alt1
> Не помню точно, но может недоставать make-initrd-mdadm.
>
Этот пакет я попробовал в первую очередь. Его наличие/отсутствие
ситуации не изменило - поведение аналогичное. Да и модуль raid10 в
initrd не попадает (root на raid1). И не хотелось бы, чтобы md10
собирался в initrd, так как в это время root еще не смонтирован и bitmap
недоступен.
Похоже, все-таки главный вопрос в том, почему при сборке массива
правилами udev при доступном корне с файлом bitmap и /etc/mdadm.conf
массив собирается как-то неправильно, а при всех тех же условиях, но с
вручную набранными теми же mdadm --incremental ... -offroot - собирается
и стартует корректно....
--
WBR, Alex Moskalenko
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] P7: Проблема с softRAID при старте системы
2013-08-08 9:58 [Sysadmins] P7: Проблема с softRAID при старте системы Alex Moskalenko
2013-08-08 11:22 ` Michael Shigorin
@ 2013-08-12 12:40 ` Anton Farygin
2013-08-13 13:55 ` [Sysadmins] [грязный хак для объезда] " Alex Moskalenko
2013-08-18 7:12 ` [Sysadmins] " Vladimir Karpinsky
3 siblings, 0 replies; 13+ messages in thread
From: Anton Farygin @ 2013-08-12 12:40 UTC (permalink / raw)
To: sysadmins; +Cc: Alex Moskalenko
08.08.2013 13:58, Alex Moskalenko пишет:
> Здравствуйте.
>
> Столкнулся с проблемой запуска массива softRAID на p7.
<skip>
>
> PS Ранее в той же конфигурации, но на p6, никаких проблем с запуском
> md10 не наблюдалось - система стартовала в штатном режиме.
Тоже мучался на ядре 3.9 с этой штукой, но вот на ядре 3.10 у меня эта
проблема исчезла.
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] [грязный хак для объезда] P7: Проблема с softRAID при старте системы
2013-08-08 9:58 [Sysadmins] P7: Проблема с softRAID при старте системы Alex Moskalenko
2013-08-08 11:22 ` Michael Shigorin
2013-08-12 12:40 ` Anton Farygin
@ 2013-08-13 13:55 ` Alex Moskalenko
2013-08-13 16:48 ` Michael Shigorin
2013-08-15 9:41 ` Michael A. Kangin
2013-08-18 7:12 ` [Sysadmins] " Vladimir Karpinsky
3 siblings, 2 replies; 13+ messages in thread
From: Alex Moskalenko @ 2013-08-13 13:55 UTC (permalink / raw)
To: sysadmins
08.08.2013 13:58, Alex Moskalenko пишет:
> Здравствуйте.
>
> Столкнулся с проблемой запуска массива softRAID на p7.
>
Здравствуйте.
По результатам дискуссии поправил /etc/rc.d/scripts/raidstart следующим
образом:
--- raidstart.orig 2013-02-07 02:27:40.000000000 +0400
+++ raidstart 2013-08-13 14:38:03.000000000 +0400
@@ -32,11 +32,16 @@
start_raid_using_mdadm()
{
- local f
+ local f arr
f="$(absolute mdadm 2>/dev/null)"
if [ -x "$f" ]; then
echo -n "(using mdadm) "
+#fix bitmap on ro root fs
+ for arr in $(awk '/^m.*: inactive/{print "/dev/"$1}'
/proc/mdstat); do
+ "$f" --stop "$arr"
+ done
+#end fix
"$f" --assemble --scan
return $?
fi
То есть тупо останавливаются все найденные массивы в состоянии inactive,
после чего продолжается штатное исполнение - запускается mdadm
--assemble --scan.
Мыслей о правильном решении проблемы так и не появилось... Думал о 2х
вариантах - 1) не собирать массивы udev'ом вообще или 2) запускать udev
после того, как / будет перемонтирован в rw. Оба варианта не нравятся.
Еще вариант объезда - не использовать external bitmap.
Прошу сообщество поделиться мыслями на этот счет. Возможно, есть смысл
завести багу на что-нибудь?...
--
WBR, Alex Moskalenko
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] [грязный хак для объезда] P7: Проблема с softRAID при старте системы
2013-08-13 13:55 ` [Sysadmins] [грязный хак для объезда] " Alex Moskalenko
@ 2013-08-13 16:48 ` Michael Shigorin
2013-08-14 10:26 ` Alex Moskalenko
2013-08-14 11:59 ` Alex Moskalenko
2013-08-15 9:41 ` Michael A. Kangin
1 sibling, 2 replies; 13+ messages in thread
From: Michael Shigorin @ 2013-08-13 16:48 UTC (permalink / raw)
To: sysadmins
On Tue, Aug 13, 2013 at 05:55:42PM +0400, Alex Moskalenko wrote:
> Прошу сообщество поделиться мыслями на этот счет.
Пока нет, -b использую только internal (с большим чанком).
> Возможно, есть смысл завести багу на что-нибудь?...
Наверное, для начала на startup с приложением объезда...
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] [грязный хак для объезда] P7: Проблема с softRAID при старте системы
2013-08-13 16:48 ` Michael Shigorin
@ 2013-08-14 10:26 ` Alex Moskalenko
2013-08-14 15:21 ` Michael Shigorin
2013-08-14 11:59 ` Alex Moskalenko
1 sibling, 1 reply; 13+ messages in thread
From: Alex Moskalenko @ 2013-08-14 10:26 UTC (permalink / raw)
To: sysadmins
13.08.2013 20:48, Michael Shigorin пишет:
> Пока нет, -b использую только internal (с большим чанком).
А поделитесь пожалуйста опытом о большом чанке! :)
Интересуют рекомендации по его размеру (либо по общему количеству чанков
битмапа на массив).
--
WBR, Alex Moskalenko
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] [грязный хак для объезда] P7: Проблема с softRAID при старте системы
2013-08-14 10:26 ` Alex Moskalenko
@ 2013-08-14 15:21 ` Michael Shigorin
0 siblings, 0 replies; 13+ messages in thread
From: Michael Shigorin @ 2013-08-14 15:21 UTC (permalink / raw)
To: sysadmins
On Wed, Aug 14, 2013 at 02:26:30PM +0400, Alex Moskalenko wrote:
> >Пока нет, -b использую только internal (с большим чанком).
> А поделитесь пожалуйста опытом о большом чанке! :)
>
> Интересуют рекомендации по его размеру (либо по общему
> количеству чанков битмапа на массив).
На несколькитерабайтных массивах нынешний mdadm и создаёт
64M chunk:
Personalities : [raid6] [raid5] [raid4] [raid10]
md1 : active raid10 sde[0] sdd[3] sdc[2] sdb[1]
3907025920 blocks super 1.2 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/30 pages [0KB], 65536KB chunk
md0 : active raid10 sdf[0] sdi[3] sdh[2] sdg[1]
1953262592 blocks super 1.2 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 2/15 pages [8KB], 65536KB chunk
unused devices: <none>
Инструментально на HN не контролировал, на глаз накладные расходы
при умеренной доле записи снизились относительно 128..2048K
и стали вполне приемлемыми.
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] [грязный хак для объезда] P7: Проблема с softRAID при старте системы
2013-08-13 16:48 ` Michael Shigorin
2013-08-14 10:26 ` Alex Moskalenko
@ 2013-08-14 11:59 ` Alex Moskalenko
1 sibling, 0 replies; 13+ messages in thread
From: Alex Moskalenko @ 2013-08-14 11:59 UTC (permalink / raw)
To: ALT Linux sysadmins' discussion
13.08.2013 20:48, Michael Shigorin пишет:
> On Tue, Aug 13, 2013 at 05:55:42PM +0400, Alex Moskalenko wrote:
>> Возможно, есть смысл завести багу на что-нибудь?...
> Наверное, для начала на startup с приложением объезда...
>
https://bugzilla.altlinux.org/show_bug.cgi?id=29283
--
WBR, Alex Moskalenko
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] [грязный хак для объезда] P7: Проблема с softRAID при старте системы
2013-08-13 13:55 ` [Sysadmins] [грязный хак для объезда] " Alex Moskalenko
2013-08-13 16:48 ` Michael Shigorin
@ 2013-08-15 9:41 ` Michael A. Kangin
1 sibling, 0 replies; 13+ messages in thread
From: Michael A. Kangin @ 2013-08-15 9:41 UTC (permalink / raw)
To: ALT Linux sysadmins' discussion
13.08.2013 17:55, Alex Moskalenko пишет:
> По результатам дискуссии поправил /etc/rc.d/scripts/raidstart следующим
> образом:
Да, у меня похожий хак вышел:
if [ -x "$f" ]; then
echo -n "(using mdadm) "
for i in 1 2 3 4 5 6 7 8 9 10; do
grep -q inactive /proc/mdstat || break
echo wait arrays ready...
sleep 1s
done
Тут ждём потому что иногда у меня очень долго стартует модуль для
четырёх дисков из восьми всего (они на другом чипе)
sleep 1s
if grep -q inactive /proc/mdstat ; then
problem_md=$(grep inactive /proc/mdstat |cut -f1
-d:)
"$f" --stop /dev/$problem_md
"$f" --assemble /dev/$problem_md
fi
return $?
fi
> --- raidstart.orig 2013-02-07 02:27:40.000000000 +0400
> +++ raidstart 2013-08-13 14:38:03.000000000 +0400
> @@ -32,11 +32,16 @@
>
> start_raid_using_mdadm()
> {
> - local f
> + local f arr
>
> f="$(absolute mdadm 2>/dev/null)"
> if [ -x "$f" ]; then
> echo -n "(using mdadm) "
> +#fix bitmap on ro root fs
> + for arr in $(awk '/^m.*: inactive/{print "/dev/"$1}'
> /proc/mdstat); do
> + "$f" --stop "$arr"
> + done
> +#end fix
> "$f" --assemble --scan
> return $?
> fi
>
> То есть тупо останавливаются все найденные массивы в состоянии inactive,
> после чего продолжается штатное исполнение - запускается mdadm
> --assemble --scan.
>
> Мыслей о правильном решении проблемы так и не появилось... Думал о 2х
> вариантах - 1) не собирать массивы udev'ом вообще или 2) запускать udev
> после того, как / будет перемонтирован в rw. Оба варианта не нравятся.
>
> Еще вариант объезда - не использовать external bitmap.
>
> Прошу сообщество поделиться мыслями на этот счет. Возможно, есть смысл
> завести багу на что-нибудь?...
>
--
wbr, Michael A. Kangin
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] P7: Проблема с softRAID при старте системы
2013-08-08 9:58 [Sysadmins] P7: Проблема с softRAID при старте системы Alex Moskalenko
` (2 preceding siblings ...)
2013-08-13 13:55 ` [Sysadmins] [грязный хак для объезда] " Alex Moskalenko
@ 2013-08-18 7:12 ` Vladimir Karpinsky
2013-09-07 8:35 ` Vladimir Karpinsky
3 siblings, 1 reply; 13+ messages in thread
From: Vladimir Karpinsky @ 2013-08-18 7:12 UTC (permalink / raw)
To: sysadmins
08.08.2013 13:58, Alex Moskalenko пишет:
> Столкнулся с проблемой запуска массива softRAID на p7.
Позвольте присоединится. Симптомы другие, но объект тот же:
При попытке загрузить ядро 3.8.13.6 получаю бесконечно бегущие сообщения:
initrd: loop: Running md_run handler...
Загрузка на 3.0.57 проходит нормально.
# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sda2[0] sdb2[1]
4192896 blocks [2/2] [UU]
md2 : active raid1 sda5[0] sdb5[1]
10490304 blocks [2/2] [UU]
md3 : active raid1 sda6[0] sdb6[1]
13309696 blocks [2/2] [UU]
md4 : active raid1 sda7[0] sdb7[1]
11068672 blocks [2/2] [UU]
md0 : active raid1 sda1[0] sdb1[1]
955712 blocks [2/2] [UU]
unused devices: <none>
--
С уважением,
Владимир.
^ permalink raw reply [flat|nested] 13+ messages in thread
* Re: [Sysadmins] P7: Проблема с softRAID при старте системы
2013-08-18 7:12 ` [Sysadmins] " Vladimir Karpinsky
@ 2013-09-07 8:35 ` Vladimir Karpinsky
0 siblings, 0 replies; 13+ messages in thread
From: Vladimir Karpinsky @ 2013-09-07 8:35 UTC (permalink / raw)
To: sysadmins
18.08.2013 11:12, Vladimir Karpinsky пишет:
> При попытке загрузить ядро 3.8.13.6 получаю бесконечно бегущие сообщения:
>
> initrd: loop: Running md_run handler...
Сегодня обнаружил в p7 ядро 3.10.10, загрузил его --- вдруг "само"
починилось. Увы, нет --- всё то же самое. Откатился обратно на 3.0.57.
--
С уважением,
Владимир.
^ permalink raw reply [flat|nested] 13+ messages in thread
end of thread, other threads:[~2013-09-07 8:35 UTC | newest]
Thread overview: 13+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2013-08-08 9:58 [Sysadmins] P7: Проблема с softRAID при старте системы Alex Moskalenko
2013-08-08 11:22 ` Michael Shigorin
2013-08-08 11:52 ` Alex Moskalenko
2013-08-11 13:39 ` Michael A. Kangin
2013-08-12 12:40 ` Anton Farygin
2013-08-13 13:55 ` [Sysadmins] [грязный хак для объезда] " Alex Moskalenko
2013-08-13 16:48 ` Michael Shigorin
2013-08-14 10:26 ` Alex Moskalenko
2013-08-14 15:21 ` Michael Shigorin
2013-08-14 11:59 ` Alex Moskalenko
2013-08-15 9:41 ` Michael A. Kangin
2013-08-18 7:12 ` [Sysadmins] " Vladimir Karpinsky
2013-09-07 8:35 ` Vladimir Karpinsky
ALT Linux sysadmins discussion
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/sysadmins/0 sysadmins/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 sysadmins sysadmins/ http://lore.altlinux.org/sysadmins \
sysadmins@lists.altlinux.org sysadmins@lists.altlinux.ru sysadmins@lists.altlinux.com
public-inbox-index sysadmins
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.sysadmins
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git