From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: X-Spam-Checker-Version: SpamAssassin 3.2.5 (2008-06-10) on sa.int.altlinux.org X-Spam-Level: X-Spam-Status: No, score=-3.3 required=5.0 tests=AWL,BAYES_00, DNS_FROM_OPENWHOIS, RCVD_IN_DNSWL_MED, SPF_HELO_PASS, SPF_PASS autolearn=ham version=3.2.5 X-Injected-Via-Gmane: http://gmane.org/ To: sysadmins@lists.altlinux.org From: Anton Farygin Date: Wed, 08 Jun 2011 15:08:17 +0400 Message-ID: <4DEF5821.6050904@altlinux.com> References: <20110608104307.GL3278@osdn.org.ua> Mime-Version: 1.0 Content-Type: text/plain; charset=KOI8-R; format=flowed Content-Transfer-Encoding: 8bit X-Complaints-To: usenet@dough.gmane.org X-Gmane-NNTP-Posting-Host: rider.balabanovo.ru User-Agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2.17pre) Gecko/20110416 Thunderbird/3.1.10pre In-Reply-To: Cc: Yuri Khachaturyan Subject: Re: [Sysadmins] =?koi8-r?b?8sHT09nQwczT0SBMVk0=?= X-BeenThere: sysadmins@lists.altlinux.org X-Mailman-Version: 2.1.12 Precedence: list Reply-To: ALT Linux sysadmins' discussion List-Id: ALT Linux sysadmins' discussion List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Wed, 08 Jun 2011 11:05:59 -0000 Archived-At: List-Archive: RAID контроллер аппаратный ? Он сам то RAID видит, и что в его логах ? RAID какой был ? 08.06.2011 14:59, Yuri Khachaturyan пишет: > Очень похоже что именно в контроллере, только понять бы в каком - в > SCSI карте или контроллере самого массива. > > Вот что произошло изначально: > > bash-3.2# grep kernel /var/log/messages |less > > Jun 5 04:12:54 bacula kernel: [135577.144376] Buffer I/O error on > device dm-0, logical block 0 > Jun 5 04:12:54 bacula kernel: [135577.144379] lost page write due to > I/O error on dm-0 > Jun 5 04:12:54 bacula kernel: [135577.144412] EXT4-fs error (device > dm-0): ext4_find_entry:933: inode #431883054: comm rsync: reading > directory lblock 0 > Jun 5 04:12:54 bacula kernel: [135577.144498] EXT4-fs error (device > dm-0): ext4_find_entry:933: inode #431883283: comm rsync: reading > directory lblock 0 > Jun 5 04:15:54 bacula kernel: [135757.152338] sd 7:0:2:2: timing out > command, waited 180s > Jun 5 04:15:54 bacula kernel: [135757.152349] sd 7:0:2:2: [sdg] > Unhandled error code > Jun 5 04:15:54 bacula kernel: [135757.152352] sd 7:0:2:2: [sdg] > Result: hostbyte=DID_OK driverbyte=DRIVER_OK > Jun 5 04:15:54 bacula kernel: [135757.152357] sd 7:0:2:2: [sdg] CDB: > Read(10): 28 00 1f 75 d6 90 00 00 02 00 > Jun 5 04:15:54 bacula kernel: [135757.152370] end_request: I/O error, > dev sdg, sector 2111265344 > Jun 5 04:15:54 bacula kernel: [135757.152406] EXT4-fs (dm-0): > previous I/O error to superblock detected > > Потом вот такое началось: > > Jun 5 14:05:18 bacula kernel: [171120.864593] scsi7: At time of > recovery, card was not paused > Jun 5 14:05:18 bacula kernel: [171120.864601]>>>>>>>>>>>>>>>>>> Dump > Card State Begins<<<<<<<<<<<<<<<<< > Jun 5 14:05:18 bacula kernel: [171120.864602] scsi7: Dumping Card > State at program address 0x1ce Mode 0x11 > Jun 5 14:05:18 bacula kernel: [171120.864605] Card was paused > Jun 5 14:05:18 bacula kernel: [171120.864608] INTSTAT[0x0] > SELOID[0x2] SELID[0x20] > Jun 5 14:05:18 bacula kernel: [171120.864618] HS_MAILBOX[0x0] > INTCTL[0x80] SEQINTSTAT[0x0] > Jun 5 14:05:18 bacula kernel: [171120.864628] SAVED_MODE[0x11] DFFSTAT[0x11] > Jun 5 14:05:18 bacula kernel: [171120.864635] SCSISIGI[0x4] > SCSIPHASE[0x0] SCSIBUS[0x1] > Jun 5 14:05:18 bacula kernel: [171120.864645] LASTPHASE[0x80] > SCSISEQ0[0x0] SCSISEQ1[0x12] > Jun 5 14:05:18 bacula kernel: [171120.864654] SEQCTL0[0x10] > SEQINTCTL[0x0] SEQ_FLAGS[0x0] > Jun 5 14:05:18 bacula kernel: [171120.864664] SEQ_FLAGS2[0x4] > QFREEZE_COUNT[0xcf43] > Jun 5 14:05:18 bacula kernel: [171120.864673] > KERNEL_QFREEZE_COUNT[0xcf43] MK_MESSAGE_SCB[0xff00] > Jun 5 14:05:18 bacula kernel: [171120.864681] MK_MESSAGE_SCSIID[0xff] > SSTAT0[0x0] > Jun 5 14:05:18 bacula kernel: [171120.864688] SSTAT1[0x0] SSTAT2[0x0] > SSTAT3[0x0] > Jun 5 14:05:18 bacula kernel: [171120.864698] PERRDIAG[0xc0] > SIMODE1[0xac] LQISTAT0[0x0] > Jun 5 14:05:18 bacula kernel: [171120.864707] LQISTAT1[0x0] > LQISTAT2[0x0] LQOSTAT0[0x0] > Jun 5 14:05:18 bacula kernel: [171120.864716] LQOSTAT1[0x0] LQOSTAT2[0x80] > Jun 5 14:05:18 bacula kernel: [171120.864732] > Jun 5 14:05:18 bacula kernel: [171120.864733] SCB Count = 12 > CMDS_PENDING = 1 LASTSCB 0x1 CURRSCB 0x1 NEXTSCB 0x0 > Jun 5 14:05:18 bacula kernel: [171120.864743] qinstart = 53623 > qinfifonext = 53623 > Jun 5 14:05:18 bacula kernel: [171120.864745] QINFIFO: > Jun 5 14:05:18 bacula kernel: [171120.864752] WAITING_TID_QUEUES: > Jun 5 14:05:18 bacula kernel: [171120.864766] Pending list: > Jun 5 14:05:18 bacula kernel: [171120.864771] 1 FIFO_USE[0x0] > SCB_CONTROL[0x60] SCB_SCSIID[0x27] > Jun 5 14:05:18 bacula kernel: [171120.864783] Total 1 > Jun 5 14:05:18 bacula kernel: [171120.864785] Kernel Free SCB list: 4 > 11 6 7 5 2 0 3 10 9 8 > Jun 5 14:05:18 bacula kernel: [171120.864796] Sequencer Complete > DMA-inprog list: > Jun 5 14:05:18 bacula kernel: [171120.864801] Sequencer Complete list: > Jun 5 14:05:18 bacula kernel: [171120.864806] Sequencer DMA-Up and > Complete list: > Jun 5 14:05:18 bacula kernel: [171120.864811] Sequencer On QFreeze > and Complete list: > > И закончилось вот этим: > > Jun 7 18:57:02 bacula kernel: [361424.269659] sd 7:0:2:0: rejecting > I/O to offline device > Jun 7 18:57:02 bacula kernel: [361424.269675] EXT4-fs (dm-0): > previous I/O error to superblock detected > Jun 7 18:57:02 bacula kernel: [361424.269685] sd 7:0:2:0: rejecting > I/O to offline device > Jun 7 18:57:02 bacula kernel: [361424.269694] EXT4-fs error (device > dm-0): ext4_find_entry:933: inode #2: comm bash: reading directory > lblock 0 > > После чего система все 3 раздела потеряла и нашла после перезагрузки и > не с первого раза. > > > 8 июня 2011 г. 14:56 пользователь Anton Farygin написал: >> Подозреваю, что никак. >> По хорошему не надо было трогать lv и смотреть что на физических дисках. >> >> Теперь там явно какая-то хрень. >> >> Но я подозреваю что дело даже не в этом, а в RAID контроллере, скорее всего >> он тебе данные попортил. >> >> >> >> 08.06.2011 14:44, Yuri Khachaturyan пишет: >>> >>> Наблюдалось - переклинило контроллер на самом аппаратном массиве. >>> Вылечилось перезагрузкой. >>> Но lvm все равно рассыпался после того, как он хотя-бы SCSI-биосом >>> стал определяться... Вот теперь думаю как вытащить оттуда данные... >>> >>> 8 июня 2011 г. 14:43 пользователь Michael Shigorin >>> написал: >>>> >>>> On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote: >>>>> >>>>> После какого-то непонятного сбоя (система ругалась на EXT4 >>>>> filesystem IO error) >>>> >>>> В dmesg случайно ничего про железо не наблюдалось? >>>> >>>> (я тут хорошо побился головой об стенку за ту неделю, >>>> сочтя программные грабли за аппаратные -- с очень схожими >>>> симптомами и после починки заведомо аппаратных...) >>>> >>>> -- >>>> ---- WBR, Michael Shigorin >>>> ------ Linux.Kiev http://www.linux.kiev.ua/ >>>> _______________________________________________ >>>> Sysadmins mailing list >>>> Sysadmins@lists.altlinux.org >>>> https://lists.altlinux.org/mailman/listinfo/sysadmins >>>> >>> >>> >>> >> >> >> _______________________________________________ >> Sysadmins mailing list >> Sysadmins@lists.altlinux.org >> https://lists.altlinux.org/mailman/listinfo/sysadmins >> > > >