ALT Linux hardware support
 help / color / mirror / Atom feed
* [Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
@ 2006-01-18 12:24 Dmitry Lebkov
  2006-01-18 19:44 ` [Hardware] " Konstantin A. Lepikhov
  0 siblings, 1 reply; 11+ messages in thread
From: Dmitry Lebkov @ 2006-01-18 12:24 UTC (permalink / raw)
  To: hardware

Доброго времени суток,

Имеется Intel SRCU42X (в "девичестве" - LSI Logic MegaRAID SCSI 320-2X) и
по два HDD на каждый канал. Всё это собрано в RAID-5 массив и одним разделом
отдано под базу PostgreSQL (208Gb, XFS filesystem).

Массив отстоял сутки под тестами bonnie++ без всяких нареканий. После заливки
данных в SQL-таблицу (порядка 5-6Gb) и попытки построить индексы в логи начинает
сыпаться вот такое:

Jan 18 19:22:10 nf kernel: megaraid: aborting-8937 cmd=2a <c=2 t=0 l=0>
Jan 18 19:22:10 nf kernel: megaraid abort: 8937:13[255:0], fw owner
Jan 18 19:22:10 nf kernel: megaraid: aborting-8931 cmd=2a <c=2 t=0 l=0>
Jan 18 19:22:10 nf kernel: megaraid abort: 8931:19[255:0], fw owner
Jan 18 19:22:10 nf kernel: megaraid: aborting-8932 cmd=2a <c=2 t=0 l=0>
...
Jan 18 19:22:10 nf kernel: megaraid abort: 8994:20[255:0], fw owner
Jan 18 19:22:10 nf kernel: megaraid: reseting the host...
Jan 18 19:22:10 nf kernel: megaraid mbox: Wait for 64 commands to complete:180
Jan 18 19:22:15 nf kernel: megaraid mbox: Wait for 64 commands to complete:175
Jan 18 19:22:20 nf kernel: megaraid mbox: Wait for 64 commands to complete:170
...
Jan 18 19:25:11 nf kernel: megaraid mbox: Wait for 64 commands to complete:0
Jan 18 19:25:11 nf kernel: megaraid mbox: critical hardware error!
Jan 18 19:25:11 nf kernel: megaraid: reseting the host...
Jan 18 19:25:11 nf kernel: megaraid: reseting the host...
Jan 18 19:25:11 nf kernel: end_request: I/O error, dev sda, sector 145063
Jan 18 19:25:11 nf kernel: lost page write due to I/O error on sda1

После чего машина либо зависает полностью, либо отваливается RAID. К жизнии
его можно вернуть только перезагрузкой.

Поиск в гугле к решению проблемы не привел. Смена ядра улучшения не принесла.

kernel-image-std-smp-2.4.32-alt1
kernel-image-vs26-smp-2.6.14-alt2.1

в этой ситуации ведут себя одинаково.

У кого-нить есть опыт успешной эксплуатации этой "железки"? Или "в морг"?

-- 
WBR, Dmitry Lebkov

PS. Firmware в карту залит самый последний, с интеловского сайта. Не помогло.


^ permalink raw reply	[flat|nested] 11+ messages in thread

* [Hardware] Re: Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-01-18 12:24 [Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X) Dmitry Lebkov
@ 2006-01-18 19:44 ` Konstantin A. Lepikhov
  2006-01-19  4:17   ` Dmitry Lebkov
  0 siblings, 1 reply; 11+ messages in thread
From: Konstantin A. Lepikhov @ 2006-01-18 19:44 UTC (permalink / raw)
  To: hardware

[-- Attachment #1: Type: text/plain, Size: 1131 bytes --]

Hi Dmitry!

Wednesday 18, at 10:24:11 PM you wrote:

> Доброго времени суток,
> 
> Имеется Intel SRCU42X (в "девичестве" - LSI Logic MegaRAID SCSI 320-2X) и
> по два HDD на каждый канал. Всё это собрано в RAID-5 массив и одним разделом
> отдано под базу PostgreSQL (208Gb, XFS filesystem).
> 
> Массив отстоял сутки под тестами bonnie++ без всяких нареканий. После 
> заливки
> данных в SQL-таблицу (порядка 5-6Gb) и попытки построить индексы в логи 
> начинает
> сыпаться вот такое:
такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
неподходящий момент (падение - либо просто виснет и не ициализируется при
перезагрузке, либо вываливаются винты из массива). У меня это был MegaRAID
Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
megaraid2, со старым могло работать год и не падать. В общем, пакость эти
мегарайды.

-- 
WBR, Konstantin	      chat with ==>ICQ: 109916175
     Lepikhov,	      speak  to ==>JID: lakostis@jabber.org
aka L.A. Kostis       write  to ==>mailto:lakostis@pisem.net.nospam

...The information is like the bank... 			  (c) EC8OR

[-- Attachment #2: Digital signature --]
[-- Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Hardware] Re: Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-01-18 19:44 ` [Hardware] " Konstantin A. Lepikhov
@ 2006-01-19  4:17   ` Dmitry Lebkov
  2006-01-19  4:42     ` Dmitry Lebkov
  2006-04-22  0:06     ` [Hardware] " Dmitry Lebkov
  0 siblings, 2 replies; 11+ messages in thread
From: Dmitry Lebkov @ 2006-01-19  4:17 UTC (permalink / raw)
  To: hardware

Konstantin A. Lepikhov wrote:
> Hi Dmitry!
> 
> Wednesday 18, at 10:24:11 PM you wrote:
> 
> 
>>Доброго времени суток,
>>
>>Имеется Intel SRCU42X (в "девичестве" - LSI Logic MegaRAID SCSI 320-2X) и
>>по два HDD на каждый канал. Всё это собрано в RAID-5 массив и одним разделом
>>отдано под базу PostgreSQL (208Gb, XFS filesystem).
>>
>>Массив отстоял сутки под тестами bonnie++ без всяких нареканий. После 
>>заливки
>>данных в SQL-таблицу (порядка 5-6Gb) и попытки построить индексы в логи 
>>начинает
>>сыпаться вот такое:
> 
> такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
> неподходящий момент (падение - либо просто виснет и не ициализируется при
> перезагрузке, либо вываливаются винты из массива). У меня это был MegaRAID
> Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
> megaraid2, со старым могло работать год и не падать. В общем, пакость эти
> мегарайды.

Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:

options megaraid_mbox cmd_per_lun=0

После этого аномалий в поведении незамечено.

Опять старая проблема с обработкой очереди SCSI-команд :( Когда-то на такие
же грабли наступал с модулем sym53c8xx и машинкой от HP (E-60 или E90) -
по-умолчанию размер очереди выставлялся в 255 комманд, а нормально работать
начинало только при длине 8 или 16 ... :(

-- 
WBR, Dmitry Lebkov


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Hardware] Re: Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-01-19  4:17   ` Dmitry Lebkov
@ 2006-01-19  4:42     ` Dmitry Lebkov
  2006-01-19 20:07       ` [wiki] " Michael Shigorin
  2006-04-22  0:06     ` [Hardware] " Dmitry Lebkov
  1 sibling, 1 reply; 11+ messages in thread
From: Dmitry Lebkov @ 2006-01-19  4:42 UTC (permalink / raw)
  To: hardware

Dmitry Lebkov wrote:
> Konstantin A. Lepikhov wrote:
> 
>> Hi Dmitry!
>>
>> Wednesday 18, at 10:24:11 PM you wrote:
>>
>>
>>> Доброго времени суток,
>>>
>>> Имеется Intel SRCU42X (в "девичестве" - LSI Logic MegaRAID SCSI 
>>> 320-2X) и
>>> по два HDD на каждый канал. Всё это собрано в RAID-5 массив и одним 
>>> разделом
>>> отдано под базу PostgreSQL (208Gb, XFS filesystem).
>>>
>>> Массив отстоял сутки под тестами bonnie++ без всяких нареканий. После 
>>> заливки
>>> данных в SQL-таблицу (порядка 5-6Gb) и попытки построить индексы в 
>>> логи начинает
>>> сыпаться вот такое:
>>
>>
>> такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
>> неподходящий момент (падение - либо просто виснет и не ициализируется при
>> перезагрузке, либо вываливаются винты из массива). У меня это был 
>> MegaRAID
>> Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
>> megaraid2, со старым могло работать год и не падать. В общем, пакость эти
>> мегарайды.
> 
> 
> Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:
> 
> options megaraid_mbox cmd_per_lun=0

Да, это для kernel-2.6.x. Для 2.4.х и модуля megaraid2 используется параметр

max_cmd_per_lun=0

-- 
WBR, Dmitry Lebkov


^ permalink raw reply	[flat|nested] 11+ messages in thread

* [wiki] Re: [Hardware] Re: Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-01-19  4:42     ` Dmitry Lebkov
@ 2006-01-19 20:07       ` Michael Shigorin
  0 siblings, 0 replies; 11+ messages in thread
From: Michael Shigorin @ 2006-01-19 20:07 UTC (permalink / raw)
  To: hardware

On Thu, Jan 19, 2006 at 02:42:06PM +1000, Dmitry Lebkov wrote:
> >Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:
> >options megaraid_mbox cmd_per_lun=0
> Да, это для kernel-2.6.x. Для 2.4.х и модуля megaraid2 используется параметр
> max_cmd_per_lun=0

Добавил ссылку на
http://www.freesource.info/wiki/HCL/XranenieDannyx

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-01-19  4:17   ` Dmitry Lebkov
  2006-01-19  4:42     ` Dmitry Lebkov
@ 2006-04-22  0:06     ` Dmitry Lebkov
  2006-04-22  3:40       ` Dmitry Lebkov
  1 sibling, 1 reply; 11+ messages in thread
From: Dmitry Lebkov @ 2006-04-22  0:06 UTC (permalink / raw)
  To: hardware

Dmitry Lebkov wrote:
> Konstantin A. Lepikhov wrote:
>> Hi Dmitry!
>>
>> Wednesday 18, at 10:24:11 PM you wrote:
>>
>>
>>> Доброго времени суток,
>>>
>>> Имеется Intel SRCU42X (в "девичестве" - LSI Logic MegaRAID SCSI
>>> 320-2X) и
>>> по два HDD на каждый канал. Всё это собрано в RAID-5 массив и одним
>>> разделом
>>> отдано под базу PostgreSQL (208Gb, XFS filesystem).
>>>
>>> Массив отстоял сутки под тестами bonnie++ без всяких нареканий. После
>>> заливки
>>> данных в SQL-таблицу (порядка 5-6Gb) и попытки построить индексы в
>>> логи начинает
>>> сыпаться вот такое:
>>
>> такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
>> неподходящий момент (падение - либо просто виснет и не ициализируется при
>> перезагрузке, либо вываливаются винты из массива). У меня это был
>> MegaRAID
>> Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
>> megaraid2, со старым могло работать год и не падать. В общем, пакость эти
>> мегарайды.
> 
> Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:
> 
> options megaraid_mbox cmd_per_lun=0
> 
> После этого аномалий в поведении незамечено.

Таки оно "выстрелило". :((( На том же железе. Симптомы те же. Система
без проблем работала до вчерашнего дня. 400Gb RAID-массив заполнен
примерно на на четверть.

Решения проблемы найти пока не удалось :( С дисками в RAID'е проблем
нет. Контролеер менял на такой же, из ЗИПа. Не помогло.

# uname -a
Linux nf.skh 2.4.32-std-smp-alt1 #1 SMP Mon Dec 26 17:52:02 MSK 2005 i686 GNU/Linux

# lsmod | grep megaraid
megaraid2              36796   3

-- 
WBR, Dmitry Lebkov



^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-04-22  0:06     ` [Hardware] " Dmitry Lebkov
@ 2006-04-22  3:40       ` Dmitry Lebkov
  2006-04-22 14:14         ` Konstantin A. Lepikhov
  0 siblings, 1 reply; 11+ messages in thread
From: Dmitry Lebkov @ 2006-04-22  3:40 UTC (permalink / raw)
  To: hardware

Dmitry Lebkov wrote:
> Dmitry Lebkov wrote:
>> Konstantin A. Lepikhov wrote:
>>> Hi Dmitry!
>>>
>>> Wednesday 18, at 10:24:11 PM you wrote:
>>>
>>>
>>>> Доброго времени суток,
>>>>
>>>> Имеется Intel SRCU42X (в "девичестве" - LSI Logic MegaRAID SCSI
>>>> 320-2X) и
>>>> по два HDD на каждый канал. Всё это собрано в RAID-5 массив и одним
>>>> разделом
>>>> отдано под базу PostgreSQL (208Gb, XFS filesystem).
>>>>
>>>> Массив отстоял сутки под тестами bonnie++ без всяких нареканий. После
>>>> заливки
>>>> данных в SQL-таблицу (порядка 5-6Gb) и попытки построить индексы в
>>>> логи начинает
>>>> сыпаться вот такое:
>>> такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
>>> неподходящий момент (падение - либо просто виснет и не ициализируется при
>>> перезагрузке, либо вываливаются винты из массива). У меня это был
>>> MegaRAID
>>> Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
>>> megaraid2, со старым могло работать год и не падать. В общем, пакость эти
>>> мегарайды.
>> Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:
>>
>> options megaraid_mbox cmd_per_lun=0
>>
>> После этого аномалий в поведении незамечено.
> 
> Таки оно "выстрелило". :((( На том же железе. Симптомы те же. Система
> без проблем работала до вчерашнего дня. 400Gb RAID-массив заполнен
> примерно на на четверть.
> 
> Решения проблемы найти пока не удалось :( С дисками в RAID'е проблем
> нет. Контролеер менял на такой же, из ЗИПа. Не помогло.
> 
> # uname -a
> Linux nf.skh 2.4.32-std-smp-alt1 #1 SMP Mon Dec 26 17:52:02 MSK 2005 i686 GNU/Linux
> 
> # lsmod | grep megaraid
> megaraid2              36796   3
> 

Но на 2.6.16-std26-smp-alt2 этот контроллер запустился и работает под нагрзукой
уже часа 2. Без cmd_per_lun=0.

-- 
WBR, Dmitry Lebkov


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-04-22  3:40       ` Dmitry Lebkov
@ 2006-04-22 14:14         ` Konstantin A. Lepikhov
  2006-04-22 18:33           ` Dmitry Lebkov
  0 siblings, 1 reply; 11+ messages in thread
From: Konstantin A. Lepikhov @ 2006-04-22 14:14 UTC (permalink / raw)
  To: hardware

[-- Attachment #1: Type: text/plain, Size: 1630 bytes --]

Hi Dmitry!

Saturday 22, at 02:40:37 PM you wrote:

<skip>
> >>> такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
> >>> неподходящий момент (падение - либо просто виснет и не ициализируется при
> >>> перезагрузке, либо вываливаются винты из массива). У меня это был
> >>> MegaRAID
> >>> Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
> >>> megaraid2, со старым могло работать год и не падать. В общем, пакость эти
> >>> мегарайды.
> >> Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:
> >>
> >> options megaraid_mbox cmd_per_lun=0
> >>
> >> После этого аномалий в поведении незамечено.
> > 
> > Таки оно "выстрелило". :((( На том же железе. Симптомы те же. Система
> > без проблем работала до вчерашнего дня. 400Gb RAID-массив заполнен
> > примерно на на четверть.
> > 
> > Решения проблемы найти пока не удалось :( С дисками в RAID'е проблем
> > нет. Контролеер менял на такой же, из ЗИПа. Не помогло.
> > 
> > # uname -a
> > Linux nf.skh 2.4.32-std-smp-alt1 #1 SMP Mon Dec 26 17:52:02 MSK 2005 i686 GNU/Linux
> > 
> > # lsmod | grep megaraid
> > megaraid2              36796   3
> > 
> 
> Но на 2.6.16-std26-smp-alt2 этот контроллер запустился и работает под нагрзукой
> уже часа 2. Без cmd_per_lun=0.
нет, надо бы сутки его погонять. 2 часа - слишком маленький интервал.

-- 
WBR, Konstantin	      chat with ==>ICQ: 109916175
     Lepikhov,	      speak  to ==>JID: lakostis@jabber.org
aka L.A. Kostis       write  to ==>mailto:lakostis@pisem.net.nospam

...The information is like the bank... 			  (c) EC8OR

[-- Attachment #2: Digital signature --]
[-- Type: application/pgp-signature, Size: 191 bytes --]

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-04-22 14:14         ` Konstantin A. Lepikhov
@ 2006-04-22 18:33           ` Dmitry Lebkov
  2006-04-27 11:18             ` Dmitry Lebkov
  0 siblings, 1 reply; 11+ messages in thread
From: Dmitry Lebkov @ 2006-04-22 18:33 UTC (permalink / raw)
  To: hardware

Konstantin A. Lepikhov wrote:
> Hi Dmitry!
> 
> Saturday 22, at 02:40:37 PM you wrote:
> 
> <skip>
> 
>>>>>такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
>>>>>неподходящий момент (падение - либо просто виснет и не ициализируется при
>>>>>перезагрузке, либо вываливаются винты из массива). У меня это был
>>>>>MegaRAID
>>>>>Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
>>>>>megaraid2, со старым могло работать год и не падать. В общем, пакость эти
>>>>>мегарайды.
>>>>
>>>>Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:
>>>>
>>>>options megaraid_mbox cmd_per_lun=0
>>>>
>>>>После этого аномалий в поведении незамечено.
>>>
>>>Таки оно "выстрелило". :((( На том же железе. Симптомы те же. Система
>>>без проблем работала до вчерашнего дня. 400Gb RAID-массив заполнен
>>>примерно на на четверть.
>>>
>>>Решения проблемы найти пока не удалось :( С дисками в RAID'е проблем
>>>нет. Контролеер менял на такой же, из ЗИПа. Не помогло.
>>>
>>># uname -a
>>>Linux nf.skh 2.4.32-std-smp-alt1 #1 SMP Mon Dec 26 17:52:02 MSK 2005 i686 GNU/Linux
>>>
>>># lsmod | grep megaraid
>>>megaraid2              36796   3
>>>
>>
>>Но на 2.6.16-std26-smp-alt2 этот контроллер запустился и работает под нагрзукой
>>уже часа 2. Без cmd_per_lun=0.
> 
> нет, надо бы сутки его погонять. 2 часа - слишком маленький интервал.

На 2.4.32-std-smp-alt1 и 2.6.14-vs26-smp-alt2.1 под такой же нагрузкой валится
через пару минут. Так что прогресс имеет место быть. ;) Вот только что проверил:
uptime 16 часов, нагрузка та же - пока всё работает.

-- 
WBR, Dmitry Lebkov


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-04-22 18:33           ` Dmitry Lebkov
@ 2006-04-27 11:18             ` Dmitry Lebkov
  2006-12-01  7:22               ` Dmitry Lebkov
  0 siblings, 1 reply; 11+ messages in thread
From: Dmitry Lebkov @ 2006-04-27 11:18 UTC (permalink / raw)
  To: hardware

Dmitry Lebkov wrote:
> Konstantin A. Lepikhov wrote:
>> Hi Dmitry!
>>
>> Saturday 22, at 02:40:37 PM you wrote:
>>
>> <skip>
>>
>>>>>> такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
>>>>>> неподходящий момент (падение - либо просто виснет и не ициализируется при
>>>>>> перезагрузке, либо вываливаются винты из массива). У меня это был
>>>>>> MegaRAID
>>>>>> Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
>>>>>> megaraid2, со старым могло работать год и не падать. В общем, пакость эти
>>>>>> мегарайды.
>>>>> Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:
>>>>>
>>>>> options megaraid_mbox cmd_per_lun=0
>>>>>
>>>>> После этого аномалий в поведении незамечено.
>>>> Таки оно "выстрелило". :((( На том же железе. Симптомы те же. Система
>>>> без проблем работала до вчерашнего дня. 400Gb RAID-массив заполнен
>>>> примерно на на четверть.
>>>>
>>>> Решения проблемы найти пока не удалось :( С дисками в RAID'е проблем
>>>> нет. Контролеер менял на такой же, из ЗИПа. Не помогло.
>>>>
>>>> # uname -a
>>>> Linux nf.skh 2.4.32-std-smp-alt1 #1 SMP Mon Dec 26 17:52:02 MSK 2005 i686 GNU/Linux
>>>>
>>>> # lsmod | grep megaraid
>>>> megaraid2              36796   3
>>>>
>>> Но на 2.6.16-std26-smp-alt2 этот контроллер запустился и работает под нагрзукой
>>> уже часа 2. Без cmd_per_lun=0.
>> нет, надо бы сутки его погонять. 2 часа - слишком маленький интервал.
> 
> На 2.4.32-std-smp-alt1 и 2.6.14-vs26-smp-alt2.1 под такой же нагрузкой валится
> через пару минут. Так что прогресс имеет место быть. ;) Вот только что проверил:
> uptime 16 часов, нагрузка та же - пока всё работает.

Таки сдохла зверушка через 5 дней аптайма и работы под той же нагрузкой. Похоже,
не жилец оно ... :( Придется искать чего-то более другое ...

-- 
WBR, Dmitry Lebkov




^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)
  2006-04-27 11:18             ` Dmitry Lebkov
@ 2006-12-01  7:22               ` Dmitry Lebkov
  0 siblings, 0 replies; 11+ messages in thread
From: Dmitry Lebkov @ 2006-12-01  7:22 UTC (permalink / raw)
  To: hardware

Dmitry Lebkov wrote:
> Dmitry Lebkov wrote:
>> Konstantin A. Lepikhov wrote:
>>> Hi Dmitry!
>>>
>>> Saturday 22, at 02:40:37 PM you wrote:
>>>
>>> <skip>
>>>
>>>>>>> такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
>>>>>>> неподходящий момент (падение - либо просто виснет и не ициализируется при
>>>>>>> перезагрузке, либо вываливаются винты из массива). У меня это был
>>>>>>> MegaRAID
>>>>>>> Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
>>>>>>> megaraid2, со старым могло работать год и не падать. В общем, пакость эти
>>>>>>> мегарайды.
>>>>>> Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:
>>>>>>
>>>>>> options megaraid_mbox cmd_per_lun=0
>>>>>>
>>>>>> После этого аномалий в поведении незамечено.
>>>>> Таки оно "выстрелило". :((( На том же железе. Симптомы те же. Система
>>>>> без проблем работала до вчерашнего дня. 400Gb RAID-массив заполнен
>>>>> примерно на на четверть.
>>>>>
>>>>> Решения проблемы найти пока не удалось :( С дисками в RAID'е проблем
>>>>> нет. Контролеер менял на такой же, из ЗИПа. Не помогло.
>>>>>
>>>>> # uname -a
>>>>> Linux nf.skh 2.4.32-std-smp-alt1 #1 SMP Mon Dec 26 17:52:02 MSK 2005 i686 GNU/Linux
>>>>>
>>>>> # lsmod | grep megaraid
>>>>> megaraid2              36796   3
>>>>>
>>>> Но на 2.6.16-std26-smp-alt2 этот контроллер запустился и работает под нагрзукой
>>>> уже часа 2. Без cmd_per_lun=0.
>>> нет, надо бы сутки его погонять. 2 часа - слишком маленький интервал.
>> На 2.4.32-std-smp-alt1 и 2.6.14-vs26-smp-alt2.1 под такой же нагрузкой валится
>> через пару минут. Так что прогресс имеет место быть. ;) Вот только что проверил:
>> uptime 16 часов, нагрузка та же - пока всё работает.
> 
> Таки сдохла зверушка через 5 дней аптайма и работы под той же нагрузкой. Похоже,
> не жилец оно ... :( Придется искать чего-то более другое ...

Just FYI:

MegaRAID SCSI 320- 0X/2x/4x

                                        Current Version         Previous Version
                                        ===============         ===============
Firmware Version:                       414E                    414C
BIOS Version:                           H431                    H429
Ctrl+M Version:                         U828                    U827
Boot Block Version:                     D.2.2.1                 V2.2.0


Major Firmware Changes since last release:
==========================================

1.      Delayed write parity data corruption
2.      Patrol Read with Media Errors on R50
3.      320-0x usage in ZCR platforms w/ 22320 HBA
4.      WebBios Update
5.      Data Corruption while running I/O in Degraded mode
6.      Data Corruption (System Event ID 55) under RMW-WT
7.      System hangs with NUM_TIMER_REQS EXHAUSTED


Вот по граблям из пункта 5 недавно прошелся очень хорошо, блин ... =\
Надо будет поменять прошивку да погонять эту железку еще раз ...

-- 
WBR, Dmitry Lebkov


^ permalink raw reply	[flat|nested] 11+ messages in thread

end of thread, other threads:[~2006-12-01  7:22 UTC | newest]

Thread overview: 11+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2006-01-18 12:24 [Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X) Dmitry Lebkov
2006-01-18 19:44 ` [Hardware] " Konstantin A. Lepikhov
2006-01-19  4:17   ` Dmitry Lebkov
2006-01-19  4:42     ` Dmitry Lebkov
2006-01-19 20:07       ` [wiki] " Michael Shigorin
2006-04-22  0:06     ` [Hardware] " Dmitry Lebkov
2006-04-22  3:40       ` Dmitry Lebkov
2006-04-22 14:14         ` Konstantin A. Lepikhov
2006-04-22 18:33           ` Dmitry Lebkov
2006-04-27 11:18             ` Dmitry Lebkov
2006-12-01  7:22               ` Dmitry Lebkov

ALT Linux hardware support

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/hardware/0 hardware/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 hardware hardware/ http://lore.altlinux.org/hardware \
		hardware@altlinux.ru hardware@lists.altlinux.org hardware@lists.altlinux.ru hardware@lists.altlinux.com hardware@altlinux.org
	public-inbox-index hardware

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.hardware


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git