ALT Linux sysadmins discussion
 help / color / mirror / Atom feed
* [Sysadmins] Рассыпался LVM
@ 2011-06-08 10:09 Yuri Khachaturyan
  2011-06-08 10:43 ` Michael Shigorin
  2011-06-08 11:33 ` [Sysadmins] [Comm] " Mykola S. Grechukh
  0 siblings, 2 replies; 11+ messages in thread
From: Yuri Khachaturyan @ 2011-06-08 10:09 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion,
	ALT Linux Community general discussions

Добрый день!

Есть аппаратный массив, на котором собраны 3 RAID-5.
В системе они были объединены в LVM2 в единый раздел EXT4.

После какого-то непонятного сбоя (система ругалась на EXT4 filesystem
IO error) после ряда перезагрузок и обновления ядра до
2.6.39-un-def-alt1 (только с ним SCSI контроллер соизволил увидеть
массивы) имеем все, что нужно в  pvdisplay и vgdisplay. А вот
lvdisplay ничего не показывает. Создал его заново, но похоже что без
файловой системы. Форматировать не хочется - на массивах около 3Тб
данных (общий объем 8Тб).

Вопрос - можно как-нибудь это дело исправить так, чтобы вытащить оттуда данные?

-- 
С уважением,
Хачатурян Юрий (yukh@yukh.ru)

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] Рассыпался LVM
  2011-06-08 10:09 [Sysadmins] Рассыпался LVM Yuri Khachaturyan
@ 2011-06-08 10:43 ` Michael Shigorin
  2011-06-08 10:44   ` Yuri Khachaturyan
  2011-06-08 12:57   ` Nikolay
  2011-06-08 11:33 ` [Sysadmins] [Comm] " Mykola S. Grechukh
  1 sibling, 2 replies; 11+ messages in thread
From: Michael Shigorin @ 2011-06-08 10:43 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote:
> После какого-то непонятного сбоя (система ругалась на EXT4
> filesystem IO error)

В dmesg случайно ничего про железо не наблюдалось?

(я тут хорошо побился головой об стенку за ту неделю,
сочтя программные грабли за аппаратные -- с очень схожими
симптомами и после починки заведомо аппаратных...)

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] Рассыпался LVM
  2011-06-08 10:43 ` Michael Shigorin
@ 2011-06-08 10:44   ` Yuri Khachaturyan
  2011-06-08 10:55     ` Michael Shigorin
  2011-06-08 10:56     ` Anton Farygin
  2011-06-08 12:57   ` Nikolay
  1 sibling, 2 replies; 11+ messages in thread
From: Yuri Khachaturyan @ 2011-06-08 10:44 UTC (permalink / raw)
  To: shigorin, ALT Linux sysadmins' discussion

Наблюдалось - переклинило контроллер на самом аппаратном массиве.
Вылечилось перезагрузкой.
Но lvm все равно рассыпался после того, как он хотя-бы SCSI-биосом
стал определяться... Вот теперь думаю как вытащить оттуда данные...

8 июня 2011 г. 14:43 пользователь Michael Shigorin <mike@osdn.org.ua> написал:
> On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote:
>> После какого-то непонятного сбоя (система ругалась на EXT4
>> filesystem IO error)
>
> В dmesg случайно ничего про железо не наблюдалось?
>
> (я тут хорошо побился головой об стенку за ту неделю,
> сочтя программные грабли за аппаратные -- с очень схожими
> симптомами и после починки заведомо аппаратных...)
>
> --
>  ---- WBR, Michael Shigorin <mike@altlinux.ru>
>  ------ Linux.Kiev http://www.linux.kiev.ua/
> _______________________________________________
> Sysadmins mailing list
> Sysadmins@lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/sysadmins
>



-- 
С уважением,
Хачатурян Юрий (yukh@yukh.ru)

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] Рассыпался LVM
  2011-06-08 10:44   ` Yuri Khachaturyan
@ 2011-06-08 10:55     ` Michael Shigorin
  2011-06-08 10:56     ` Anton Farygin
  1 sibling, 0 replies; 11+ messages in thread
From: Michael Shigorin @ 2011-06-08 10:55 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

On Wed, Jun 08, 2011 at 02:44:52PM +0400, Yuri Khachaturyan wrote:
> Но lvm все равно рассыпался после того, как он хотя-бы
> SCSI-биосом стал определяться... Вот теперь думаю как вытащить
> оттуда данные...

Из hwraid+lvm не приходилось, но общая рекомендация --
постараться сделать копии дисков перед тем, как что-то
на них трогать, если данные нужные и бэкапов достаточной
свежести нет.

Возможно, пригодится что:
http://www.linuxjournal.com/article/8874
http://www.opennet.ru/openforum/vsluhforumID1/67078.html

+/- эксперименты на стенде или поиск доверенных выкапывателей
данных (конторок-то много такие услуги предлагают, в Москве
рекомендаций дать не могу, правда).

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] Рассыпался LVM
  2011-06-08 10:44   ` Yuri Khachaturyan
  2011-06-08 10:55     ` Michael Shigorin
@ 2011-06-08 10:56     ` Anton Farygin
  2011-06-08 10:59       ` Yuri Khachaturyan
  1 sibling, 1 reply; 11+ messages in thread
From: Anton Farygin @ 2011-06-08 10:56 UTC (permalink / raw)
  To: sysadmins

Подозреваю, что никак.
По хорошему не надо было трогать lv и смотреть что на физических дисках.

Теперь там явно какая-то хрень.

Но я подозреваю что дело даже не в этом, а в RAID контроллере, скорее 
всего он тебе данные попортил.



08.06.2011 14:44, Yuri Khachaturyan пишет:
> Наблюдалось - переклинило контроллер на самом аппаратном массиве.
> Вылечилось перезагрузкой.
> Но lvm все равно рассыпался после того, как он хотя-бы SCSI-биосом
> стал определяться... Вот теперь думаю как вытащить оттуда данные...
>
> 8 июня 2011 г. 14:43 пользователь Michael Shigorin<mike@osdn.org.ua>  написал:
>> On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote:
>>> После какого-то непонятного сбоя (система ругалась на EXT4
>>> filesystem IO error)
>>
>> В dmesg случайно ничего про железо не наблюдалось?
>>
>> (я тут хорошо побился головой об стенку за ту неделю,
>> сочтя программные грабли за аппаратные -- с очень схожими
>> симптомами и после починки заведомо аппаратных...)
>>
>> --
>>   ---- WBR, Michael Shigorin<mike@altlinux.ru>
>>   ------ Linux.Kiev http://www.linux.kiev.ua/
>> _______________________________________________
>> Sysadmins mailing list
>> Sysadmins@lists.altlinux.org
>> https://lists.altlinux.org/mailman/listinfo/sysadmins
>>
>
>
>




^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] Рассыпался LVM
  2011-06-08 10:56     ` Anton Farygin
@ 2011-06-08 10:59       ` Yuri Khachaturyan
  2011-06-08 11:08         ` Anton Farygin
  2011-06-08 11:14         ` Michael Shigorin
  0 siblings, 2 replies; 11+ messages in thread
From: Yuri Khachaturyan @ 2011-06-08 10:59 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

Очень похоже что именно в контроллере, только понять бы в каком - в
SCSI карте или контроллере самого массива.

Вот что произошло изначально:

bash-3.2# grep kernel /var/log/messages |less

Jun  5 04:12:54 bacula kernel: [135577.144376] Buffer I/O error on
device dm-0, logical block 0
Jun  5 04:12:54 bacula kernel: [135577.144379] lost page write due to
I/O error on dm-0
Jun  5 04:12:54 bacula kernel: [135577.144412] EXT4-fs error (device
dm-0): ext4_find_entry:933: inode #431883054: comm rsync: reading
directory lblock 0
Jun  5 04:12:54 bacula kernel: [135577.144498] EXT4-fs error (device
dm-0): ext4_find_entry:933: inode #431883283: comm rsync: reading
directory lblock 0
Jun  5 04:15:54 bacula kernel: [135757.152338] sd 7:0:2:2: timing out
command, waited 180s
Jun  5 04:15:54 bacula kernel: [135757.152349] sd 7:0:2:2: [sdg]
Unhandled error code
Jun  5 04:15:54 bacula kernel: [135757.152352] sd 7:0:2:2: [sdg]
Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jun  5 04:15:54 bacula kernel: [135757.152357] sd 7:0:2:2: [sdg] CDB:
Read(10): 28 00 1f 75 d6 90 00 00 02 00
Jun  5 04:15:54 bacula kernel: [135757.152370] end_request: I/O error,
dev sdg, sector 2111265344
Jun  5 04:15:54 bacula kernel: [135757.152406] EXT4-fs (dm-0):
previous I/O error to superblock detected

Потом вот такое началось:

Jun  5 14:05:18 bacula kernel: [171120.864593] scsi7: At time of
recovery, card was not paused
Jun  5 14:05:18 bacula kernel: [171120.864601] >>>>>>>>>>>>>>>>>> Dump
Card State Begins <<<<<<<<<<<<<<<<<
Jun  5 14:05:18 bacula kernel: [171120.864602] scsi7: Dumping Card
State at program address 0x1ce Mode 0x11
Jun  5 14:05:18 bacula kernel: [171120.864605] Card was paused
Jun  5 14:05:18 bacula kernel: [171120.864608] INTSTAT[0x0]
SELOID[0x2] SELID[0x20]
Jun  5 14:05:18 bacula kernel: [171120.864618] HS_MAILBOX[0x0]
INTCTL[0x80] SEQINTSTAT[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864628] SAVED_MODE[0x11] DFFSTAT[0x11]
Jun  5 14:05:18 bacula kernel: [171120.864635] SCSISIGI[0x4]
SCSIPHASE[0x0] SCSIBUS[0x1]
Jun  5 14:05:18 bacula kernel: [171120.864645] LASTPHASE[0x80]
SCSISEQ0[0x0] SCSISEQ1[0x12]
Jun  5 14:05:18 bacula kernel: [171120.864654] SEQCTL0[0x10]
SEQINTCTL[0x0] SEQ_FLAGS[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864664] SEQ_FLAGS2[0x4]
QFREEZE_COUNT[0xcf43]
Jun  5 14:05:18 bacula kernel: [171120.864673]
KERNEL_QFREEZE_COUNT[0xcf43] MK_MESSAGE_SCB[0xff00]
Jun  5 14:05:18 bacula kernel: [171120.864681] MK_MESSAGE_SCSIID[0xff]
SSTAT0[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864688] SSTAT1[0x0] SSTAT2[0x0]
SSTAT3[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864698] PERRDIAG[0xc0]
SIMODE1[0xac] LQISTAT0[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864707] LQISTAT1[0x0]
LQISTAT2[0x0] LQOSTAT0[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864716] LQOSTAT1[0x0] LQOSTAT2[0x80]
Jun  5 14:05:18 bacula kernel: [171120.864732]
Jun  5 14:05:18 bacula kernel: [171120.864733] SCB Count = 12
CMDS_PENDING = 1 LASTSCB 0x1 CURRSCB 0x1 NEXTSCB 0x0
Jun  5 14:05:18 bacula kernel: [171120.864743] qinstart = 53623
qinfifonext = 53623
Jun  5 14:05:18 bacula kernel: [171120.864745] QINFIFO:
Jun  5 14:05:18 bacula kernel: [171120.864752] WAITING_TID_QUEUES:
Jun  5 14:05:18 bacula kernel: [171120.864766] Pending list:
Jun  5 14:05:18 bacula kernel: [171120.864771]   1 FIFO_USE[0x0]
SCB_CONTROL[0x60] SCB_SCSIID[0x27]
Jun  5 14:05:18 bacula kernel: [171120.864783] Total 1
Jun  5 14:05:18 bacula kernel: [171120.864785] Kernel Free SCB list: 4
11 6 7 5 2 0 3 10 9 8
Jun  5 14:05:18 bacula kernel: [171120.864796] Sequencer Complete
DMA-inprog list:
Jun  5 14:05:18 bacula kernel: [171120.864801] Sequencer Complete list:
Jun  5 14:05:18 bacula kernel: [171120.864806] Sequencer DMA-Up and
Complete list:
Jun  5 14:05:18 bacula kernel: [171120.864811] Sequencer On QFreeze
and Complete list:

И закончилось вот этим:

Jun  7 18:57:02 bacula kernel: [361424.269659] sd 7:0:2:0: rejecting
I/O to offline device
Jun  7 18:57:02 bacula kernel: [361424.269675] EXT4-fs (dm-0):
previous I/O error to superblock detected
Jun  7 18:57:02 bacula kernel: [361424.269685] sd 7:0:2:0: rejecting
I/O to offline device
Jun  7 18:57:02 bacula kernel: [361424.269694] EXT4-fs error (device
dm-0): ext4_find_entry:933: inode #2: comm bash: reading directory
lblock 0

После чего система все 3 раздела потеряла и нашла после перезагрузки и
не с первого раза.


8 июня 2011 г. 14:56 пользователь Anton Farygin <rider@altlinux.com> написал:
> Подозреваю, что никак.
> По хорошему не надо было трогать lv и смотреть что на физических дисках.
>
> Теперь там явно какая-то хрень.
>
> Но я подозреваю что дело даже не в этом, а в RAID контроллере, скорее всего
> он тебе данные попортил.
>
>
>
> 08.06.2011 14:44, Yuri Khachaturyan пишет:
>>
>> Наблюдалось - переклинило контроллер на самом аппаратном массиве.
>> Вылечилось перезагрузкой.
>> Но lvm все равно рассыпался после того, как он хотя-бы SCSI-биосом
>> стал определяться... Вот теперь думаю как вытащить оттуда данные...
>>
>> 8 июня 2011 г. 14:43 пользователь Michael Shigorin<mike@osdn.org.ua>
>>  написал:
>>>
>>> On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote:
>>>>
>>>> После какого-то непонятного сбоя (система ругалась на EXT4
>>>> filesystem IO error)
>>>
>>> В dmesg случайно ничего про железо не наблюдалось?
>>>
>>> (я тут хорошо побился головой об стенку за ту неделю,
>>> сочтя программные грабли за аппаратные -- с очень схожими
>>> симптомами и после починки заведомо аппаратных...)
>>>
>>> --
>>>  ---- WBR, Michael Shigorin<mike@altlinux.ru>
>>>  ------ Linux.Kiev http://www.linux.kiev.ua/
>>> _______________________________________________
>>> Sysadmins mailing list
>>> Sysadmins@lists.altlinux.org
>>> https://lists.altlinux.org/mailman/listinfo/sysadmins
>>>
>>
>>
>>
>
>
> _______________________________________________
> Sysadmins mailing list
> Sysadmins@lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/sysadmins
>



-- 
С уважением,
Хачатурян Юрий (yukh@yukh.ru)


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] Рассыпался LVM
  2011-06-08 10:59       ` Yuri Khachaturyan
@ 2011-06-08 11:08         ` Anton Farygin
  2011-06-08 11:14         ` Michael Shigorin
  1 sibling, 0 replies; 11+ messages in thread
From: Anton Farygin @ 2011-06-08 11:08 UTC (permalink / raw)
  To: sysadmins; +Cc: Yuri Khachaturyan

RAID контроллер аппаратный ? Он сам то RAID видит, и что в его логах ?

RAID какой был ?

08.06.2011 14:59, Yuri Khachaturyan пишет:
> Очень похоже что именно в контроллере, только понять бы в каком - в
> SCSI карте или контроллере самого массива.
>
> Вот что произошло изначально:
>
> bash-3.2# grep kernel /var/log/messages |less
>
> Jun  5 04:12:54 bacula kernel: [135577.144376] Buffer I/O error on
> device dm-0, logical block 0
> Jun  5 04:12:54 bacula kernel: [135577.144379] lost page write due to
> I/O error on dm-0
> Jun  5 04:12:54 bacula kernel: [135577.144412] EXT4-fs error (device
> dm-0): ext4_find_entry:933: inode #431883054: comm rsync: reading
> directory lblock 0
> Jun  5 04:12:54 bacula kernel: [135577.144498] EXT4-fs error (device
> dm-0): ext4_find_entry:933: inode #431883283: comm rsync: reading
> directory lblock 0
> Jun  5 04:15:54 bacula kernel: [135757.152338] sd 7:0:2:2: timing out
> command, waited 180s
> Jun  5 04:15:54 bacula kernel: [135757.152349] sd 7:0:2:2: [sdg]
> Unhandled error code
> Jun  5 04:15:54 bacula kernel: [135757.152352] sd 7:0:2:2: [sdg]
> Result: hostbyte=DID_OK driverbyte=DRIVER_OK
> Jun  5 04:15:54 bacula kernel: [135757.152357] sd 7:0:2:2: [sdg] CDB:
> Read(10): 28 00 1f 75 d6 90 00 00 02 00
> Jun  5 04:15:54 bacula kernel: [135757.152370] end_request: I/O error,
> dev sdg, sector 2111265344
> Jun  5 04:15:54 bacula kernel: [135757.152406] EXT4-fs (dm-0):
> previous I/O error to superblock detected
>
> Потом вот такое началось:
>
> Jun  5 14:05:18 bacula kernel: [171120.864593] scsi7: At time of
> recovery, card was not paused
> Jun  5 14:05:18 bacula kernel: [171120.864601]>>>>>>>>>>>>>>>>>>  Dump
> Card State Begins<<<<<<<<<<<<<<<<<
> Jun  5 14:05:18 bacula kernel: [171120.864602] scsi7: Dumping Card
> State at program address 0x1ce Mode 0x11
> Jun  5 14:05:18 bacula kernel: [171120.864605] Card was paused
> Jun  5 14:05:18 bacula kernel: [171120.864608] INTSTAT[0x0]
> SELOID[0x2] SELID[0x20]
> Jun  5 14:05:18 bacula kernel: [171120.864618] HS_MAILBOX[0x0]
> INTCTL[0x80] SEQINTSTAT[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864628] SAVED_MODE[0x11] DFFSTAT[0x11]
> Jun  5 14:05:18 bacula kernel: [171120.864635] SCSISIGI[0x4]
> SCSIPHASE[0x0] SCSIBUS[0x1]
> Jun  5 14:05:18 bacula kernel: [171120.864645] LASTPHASE[0x80]
> SCSISEQ0[0x0] SCSISEQ1[0x12]
> Jun  5 14:05:18 bacula kernel: [171120.864654] SEQCTL0[0x10]
> SEQINTCTL[0x0] SEQ_FLAGS[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864664] SEQ_FLAGS2[0x4]
> QFREEZE_COUNT[0xcf43]
> Jun  5 14:05:18 bacula kernel: [171120.864673]
> KERNEL_QFREEZE_COUNT[0xcf43] MK_MESSAGE_SCB[0xff00]
> Jun  5 14:05:18 bacula kernel: [171120.864681] MK_MESSAGE_SCSIID[0xff]
> SSTAT0[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864688] SSTAT1[0x0] SSTAT2[0x0]
> SSTAT3[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864698] PERRDIAG[0xc0]
> SIMODE1[0xac] LQISTAT0[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864707] LQISTAT1[0x0]
> LQISTAT2[0x0] LQOSTAT0[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864716] LQOSTAT1[0x0] LQOSTAT2[0x80]
> Jun  5 14:05:18 bacula kernel: [171120.864732]
> Jun  5 14:05:18 bacula kernel: [171120.864733] SCB Count = 12
> CMDS_PENDING = 1 LASTSCB 0x1 CURRSCB 0x1 NEXTSCB 0x0
> Jun  5 14:05:18 bacula kernel: [171120.864743] qinstart = 53623
> qinfifonext = 53623
> Jun  5 14:05:18 bacula kernel: [171120.864745] QINFIFO:
> Jun  5 14:05:18 bacula kernel: [171120.864752] WAITING_TID_QUEUES:
> Jun  5 14:05:18 bacula kernel: [171120.864766] Pending list:
> Jun  5 14:05:18 bacula kernel: [171120.864771]   1 FIFO_USE[0x0]
> SCB_CONTROL[0x60] SCB_SCSIID[0x27]
> Jun  5 14:05:18 bacula kernel: [171120.864783] Total 1
> Jun  5 14:05:18 bacula kernel: [171120.864785] Kernel Free SCB list: 4
> 11 6 7 5 2 0 3 10 9 8
> Jun  5 14:05:18 bacula kernel: [171120.864796] Sequencer Complete
> DMA-inprog list:
> Jun  5 14:05:18 bacula kernel: [171120.864801] Sequencer Complete list:
> Jun  5 14:05:18 bacula kernel: [171120.864806] Sequencer DMA-Up and
> Complete list:
> Jun  5 14:05:18 bacula kernel: [171120.864811] Sequencer On QFreeze
> and Complete list:
>
> И закончилось вот этим:
>
> Jun  7 18:57:02 bacula kernel: [361424.269659] sd 7:0:2:0: rejecting
> I/O to offline device
> Jun  7 18:57:02 bacula kernel: [361424.269675] EXT4-fs (dm-0):
> previous I/O error to superblock detected
> Jun  7 18:57:02 bacula kernel: [361424.269685] sd 7:0:2:0: rejecting
> I/O to offline device
> Jun  7 18:57:02 bacula kernel: [361424.269694] EXT4-fs error (device
> dm-0): ext4_find_entry:933: inode #2: comm bash: reading directory
> lblock 0
>
> После чего система все 3 раздела потеряла и нашла после перезагрузки и
> не с первого раза.
>
>
> 8 июня 2011 г. 14:56 пользователь Anton Farygin<rider@altlinux.com>  написал:
>> Подозреваю, что никак.
>> По хорошему не надо было трогать lv и смотреть что на физических дисках.
>>
>> Теперь там явно какая-то хрень.
>>
>> Но я подозреваю что дело даже не в этом, а в RAID контроллере, скорее всего
>> он тебе данные попортил.
>>
>>
>>
>> 08.06.2011 14:44, Yuri Khachaturyan пишет:
>>>
>>> Наблюдалось - переклинило контроллер на самом аппаратном массиве.
>>> Вылечилось перезагрузкой.
>>> Но lvm все равно рассыпался после того, как он хотя-бы SCSI-биосом
>>> стал определяться... Вот теперь думаю как вытащить оттуда данные...
>>>
>>> 8 июня 2011 г. 14:43 пользователь Michael Shigorin<mike@osdn.org.ua>
>>>   написал:
>>>>
>>>> On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote:
>>>>>
>>>>> После какого-то непонятного сбоя (система ругалась на EXT4
>>>>> filesystem IO error)
>>>>
>>>> В dmesg случайно ничего про железо не наблюдалось?
>>>>
>>>> (я тут хорошо побился головой об стенку за ту неделю,
>>>> сочтя программные грабли за аппаратные -- с очень схожими
>>>> симптомами и после починки заведомо аппаратных...)
>>>>
>>>> --
>>>>   ---- WBR, Michael Shigorin<mike@altlinux.ru>
>>>>   ------ Linux.Kiev http://www.linux.kiev.ua/
>>>> _______________________________________________
>>>> Sysadmins mailing list
>>>> Sysadmins@lists.altlinux.org
>>>> https://lists.altlinux.org/mailman/listinfo/sysadmins
>>>>
>>>
>>>
>>>
>>
>>
>> _______________________________________________
>> Sysadmins mailing list
>> Sysadmins@lists.altlinux.org
>> https://lists.altlinux.org/mailman/listinfo/sysadmins
>>
>
>
>




^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] Рассыпался LVM
  2011-06-08 10:59       ` Yuri Khachaturyan
  2011-06-08 11:08         ` Anton Farygin
@ 2011-06-08 11:14         ` Michael Shigorin
  2011-06-08 11:16           ` Yuri Khachaturyan
  1 sibling, 1 reply; 11+ messages in thread
From: Michael Shigorin @ 2011-06-08 11:14 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

On Wed, Jun 08, 2011 at 02:59:05PM +0400, Yuri Khachaturyan wrote:
> Jun  5 04:15:54 bacula kernel: [135757.152370] end_request: I/O
> error, dev sdg, sector 2111265344
[...]
> Jun  7 18:57:02 bacula kernel: [361424.269659] sd 7:0:2:0:
> rejecting I/O to offline device
[...]
> После чего система все 3 раздела потеряла и нашла после
> перезагрузки и не с первого раза.

Хм, если это и были бэкапы -- то я бы при возможности:
- объявил их покойными, если не получится воскресить;
- обдумал, стоит ли доверять данные такому рейду:
  http://www.altlinux.org/FAQ/RAID;
- затем близко не подпускал бы LVM и прочие лишние сущности,
  а вместо того нарисовал бы несколько device/storage/pool
  на самих массивах да подсунул бакуле по отдельности
  (опять же не забывая про Label Media, Maximum Volume Bytes,
  Volume Use Duration, Recycle Oldest Volume, Maximum Volumes).

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] Рассыпался LVM
  2011-06-08 11:14         ` Michael Shigorin
@ 2011-06-08 11:16           ` Yuri Khachaturyan
  0 siblings, 0 replies; 11+ messages in thread
From: Yuri Khachaturyan @ 2011-06-08 11:16 UTC (permalink / raw)
  To: shigorin, ALT Linux sysadmins' discussion

Бэкапы успешно делаются заново, это не проблема.
Проблема в том, как сделать так, чтобы оно заново не умерло еще через
месяц и понять причину этого глюка.

8 июня 2011 г. 15:14 пользователь Michael Shigorin <mike@osdn.org.ua> написал:
> On Wed, Jun 08, 2011 at 02:59:05PM +0400, Yuri Khachaturyan wrote:
>> Jun  5 04:15:54 bacula kernel: [135757.152370] end_request: I/O
>> error, dev sdg, sector 2111265344
> [...]
>> Jun  7 18:57:02 bacula kernel: [361424.269659] sd 7:0:2:0:
>> rejecting I/O to offline device
> [...]
>> После чего система все 3 раздела потеряла и нашла после
>> перезагрузки и не с первого раза.
>
> Хм, если это и были бэкапы -- то я бы при возможности:
> - объявил их покойными, если не получится воскресить;
> - обдумал, стоит ли доверять данные такому рейду:
>  http://www.altlinux.org/FAQ/RAID;
> - затем близко не подпускал бы LVM и прочие лишние сущности,
>  а вместо того нарисовал бы несколько device/storage/pool
>  на самих массивах да подсунул бакуле по отдельности
>  (опять же не забывая про Label Media, Maximum Volume Bytes,
>  Volume Use Duration, Recycle Oldest Volume, Maximum Volumes).
>
> --
>  ---- WBR, Michael Shigorin <mike@altlinux.ru>
>  ------ Linux.Kiev http://www.linux.kiev.ua/
> _______________________________________________
> Sysadmins mailing list
> Sysadmins@lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/sysadmins
>



-- 
С уважением,
Хачатурян Юрий (yukh@yukh.ru)

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] [Comm] Рассыпался LVM
  2011-06-08 10:09 [Sysadmins] Рассыпался LVM Yuri Khachaturyan
  2011-06-08 10:43 ` Michael Shigorin
@ 2011-06-08 11:33 ` Mykola S. Grechukh
  1 sibling, 0 replies; 11+ messages in thread
From: Mykola S. Grechukh @ 2011-06-08 11:33 UTC (permalink / raw)
  To: ALT Linux Community general discussions
  Cc: ALT Linux sysadmins' discussion

2011/6/8 Yuri Khachaturyan <>:
> Вопрос - можно как-нибудь это дело исправить так, чтобы вытащить оттуда данные?

Кажется, не очень как. Скорее никак.

-- 
Mykola Grechukh

CTO, Satelliz-Ukraine

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Sysadmins] Рассыпался LVM
  2011-06-08 10:43 ` Michael Shigorin
  2011-06-08 10:44   ` Yuri Khachaturyan
@ 2011-06-08 12:57   ` Nikolay
  1 sibling, 0 replies; 11+ messages in thread
From: Nikolay @ 2011-06-08 12:57 UTC (permalink / raw)
  To: ALT Linux sysadmins' discussion

Re: [Sysadmins] Рассыпался LVM
 Отправитель: Michael Shigorin <mike@osdn.org.ua>
 Получатель: "ALT Linux sysadmins' discussion" <sysadmins@lists.altlinux.org>
 
On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote:
> После какого-то непонятного сбоя (система ругалась на EXT4
> filesystem IO error)

В dmesg случайно ничего про железо не наблюдалось?
Михаил - сегодня  пришлось перегрузить центавр 64 бит.
При загрузке сервер запросил RAID Reapair, дальнейшая загрузка прекратилась  и 
сервре перешёл в режим восстановления.
Залогинившись root дал init 3
- но ни один из разделов кроме корня непримонтировался.
mount -a init 1 init 3 помогло стартануть сервер в нормальном режиме.
В Субботу он чудесно без каких либо ошибок удалённо перегрузился.
dist-upgrade делал неделю назад из настроенного центавром репозитария.
Странно както это .

С, уважением, Николай.

^ permalink raw reply	[flat|nested] 11+ messages in thread

end of thread, other threads:[~2011-06-08 12:57 UTC | newest]

Thread overview: 11+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2011-06-08 10:09 [Sysadmins] Рассыпался LVM Yuri Khachaturyan
2011-06-08 10:43 ` Michael Shigorin
2011-06-08 10:44   ` Yuri Khachaturyan
2011-06-08 10:55     ` Michael Shigorin
2011-06-08 10:56     ` Anton Farygin
2011-06-08 10:59       ` Yuri Khachaturyan
2011-06-08 11:08         ` Anton Farygin
2011-06-08 11:14         ` Michael Shigorin
2011-06-08 11:16           ` Yuri Khachaturyan
2011-06-08 12:57   ` Nikolay
2011-06-08 11:33 ` [Sysadmins] [Comm] " Mykola S. Grechukh

ALT Linux sysadmins discussion

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sysadmins/0 sysadmins/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sysadmins sysadmins/ http://lore.altlinux.org/sysadmins \
		sysadmins@lists.altlinux.org sysadmins@lists.altlinux.ru sysadmins@lists.altlinux.com
	public-inbox-index sysadmins

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sysadmins


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git