ALT Linux Sisyphus discussions
 help / color / mirror / Atom feed
* [sisyphus] xfs or disk ?
@ 2010-09-18 13:41 Alexey Morsov
  2010-09-18 14:32 ` Sergey Vlasov
  0 siblings, 1 reply; 5+ messages in thread
From: Alexey Morsov @ 2010-09-18 13:41 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

[-- Attachment #1: Type: text/plain, Size: 4551 bytes --]

Сегодня уже пару раз наблюдал такую картину. Внезапно (хихи) перестает
читаться один диск (на весь диск одна партиция). Причем на компе горит
лампочка активности диска но ее нет (судя по iotop). Файлы не читаются
директории видны но в них ничего нет. Ну вообщем бред. Партиция при этом
замонтирована. df отрабатывает.

После перезагрузки все в норме, все на месте xfs_check ничего не выдает.
В логах такое:

Sep 18 15:57:47 home kernel: [57344.507703] xfs_force_shutdown(sdb1,0x2) called from line 1043 of file fs/xfs/xfs_log.c.  Return address = 0xffffffffa02eb863
Sep 18 15:58:03 home kernel: [57360.704011] Filesystem "sdb1": xfs_log_force: error 5 returned.
Sep 18 15:58:39 home kernel: [57396.704011] Filesystem "sdb1": xfs_log_force: error 5 returned.
Sep 18 15:59:15 home kernel: [57432.704013] Filesystem "sdb1": xfs_log_force: error 5 returned.
Sep 18 15:59:51 home kernel: [57468.704010] Filesystem "sdb1": xfs_log_force: error 5 returned.
Sep 18 16:00:27 home kernel: [57504.704011] Filesystem "sdb1": xfs_log_force: error 5 returned.
Sep 18 16:00:43 home kernel: [57520.804228] xfs_force_shutdown(sdb1,0x1) called from line 335 of file fs/xfs/xfs_rw.c.  Return address = 0xffffffffa030038b
Sep 18 16:00:43 home kernel: [57520.820203] xfs_force_shutdown(sdb1,0x1) called from line 335 of file fs/xfs/xfs_rw.c.  Return address = 0xffffffffa030038b
Sep 18 16:00:43 home kernel: [57521.196983] Filesystem "sdb1": xfs_log_force: error 5 returned.
Sep 18 16:00:43 home kernel: [57521.198112] Filesystem "sdb1": xfs_log_force: error 5 returned.
Sep 18 17:16:11 home kernel: [ 4349.908172] I/O error in filesystem ("sdb1") meta-data dev sdb1 block 0x868850       ("xfs_trans_read_buf") error 5 buf count 8192
Sep 18 17:16:11 home kernel: [ 4349.908176] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on sdb1.  Returning error.
Sep 18 17:16:11 home kernel: [ 4349.908415] I/O error in filesystem ("sdb1") meta-data dev sdb1 block 0x868850       ("xfs_trans_read_buf") error 5 buf count 8192
Sep 18 17:16:11 home kernel: [ 4349.908417] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on sdb1.  Returning error.
Sep 18 17:16:11 home kernel: [ 4349.908458] I/O error in filesystem ("sdb1") meta-data dev sdb1 block 0x868850       ("xfs_trans_read_buf") error 5 buf count 8192
Sep 18 17:16:11 home kernel: [ 4349.908460] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on sdb1.  Returning error.
Sep 18 17:16:11 home kernel: [ 4349.908498] I/O error in filesystem ("sdb1") meta-data dev sdb1 block 0x868850       ("xfs_trans_read_buf") error 5 buf count 8192
Sep 18 17:16:11 home kernel: [ 4349.908506] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on sdb1.  Returning error.
Sep 18 17:16:11 home kernel: [ 4349.908557] I/O error in filesystem ("sdb1") meta-data dev sdb1 block 0x868850       ("xfs_trans_read_buf") error 5 buf count 8192
Sep 18 17:16:11 home kernel: [ 4349.908561] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on sdb1.  Returning error.
Sep 18 17:17:46 home kernel: [ 4444.821022] xfs_force_shutdown(sdb1,0x1) called from line 335 of file fs/xfs/xfs_rw.c.  Return address = 0xffffffffa030838b
Sep 18 17:17:46 home kernel: [ 4444.852084] xfs_force_shutdown(sdb1,0x1) called from line 335 of file fs/xfs/xfs_rw.c.  Return address = 0xffffffffa030838b
Sep 18 17:17:46 home kernel: [ 4444.873715] Filesystem "sdb1": xfs_log_force: error 5 returned.


smartctl вроде тоже пишет PASSED
morsov@home ~ $ uname -a
Linux home.ru 2.6.32-un-def-alt20 #1 SMP PREEMPT Sun Aug 22 05:45:47 UTC 2010 x86_64 GNU/Linux

диск сата wd WDC WD5000AAKS-00YGA0

Это что-то с дровами файлухой или таки дисочек примеряет белые тапки?

-- 
WBR,Алексей Морсов
программист ЗАО "ИК "Риком-Траст"
Jabber: samurai@www.fondmarket.ru
ALT Linux Team Member

> хмм, слака тоже очень сильный дистрибутив. и безопасней.
[...]
> а я сижу почему-то под альтами.
"...в пустом readonly chroot псевдопользователем..." (+vserver :)
		-- mike in smoke-room@

[-- Attachment #2: Digital signature --]
[-- Type: application/pgp-signature, Size: 490 bytes --]

^ permalink raw reply	[flat|nested] 5+ messages in thread

* Re: [sisyphus] xfs or disk ?
  2010-09-18 13:41 [sisyphus] xfs or disk ? Alexey Morsov
@ 2010-09-18 14:32 ` Sergey Vlasov
  2010-09-18 16:35   ` Alexey Morsov
  0 siblings, 1 reply; 5+ messages in thread
From: Sergey Vlasov @ 2010-09-18 14:32 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 1850 bytes --]

On Sat, Sep 18, 2010 at 05:41:45PM +0400, Alexey Morsov wrote:
> Сегодня уже пару раз наблюдал такую картину. Внезапно (хихи) перестает
> читаться один диск (на весь диск одна партиция). Причем на компе горит
> лампочка активности диска но ее нет (судя по iotop). Файлы не читаются
> директории видны но в них ничего нет. Ну вообщем бред. Партиция при этом
> замонтирована. df отрабатывает.
> 
> После перезагрузки все в норме, все на месте xfs_check ничего не выдает.
> В логах такое:
> 
> Sep 18 15:57:47 home kernel: [57344.507703] xfs_force_shutdown(sdb1,0x2) called from line 1043 of file fs/xfs/xfs_log.c.  Return address = 0xffffffffa02eb863
[...]

Это реакция xfs на невозможность записи в журнал; перед этим должны
быть ещё сообщения об ошибках диска (ataN: ...) - надо смотреть их.

> smartctl вроде тоже пишет PASSED

Общий статус SMART обычно меняется, когда количество нечитаемых
секторов на диске уже исчисляется тысячами.  Надо смотреть в выводе
smartctl -A значения отдельных атрибутов (в частности, в атрибутах
Reallocated_Sector_Ct, Reallocated_Event_Count, Current_Pending_Sector
в поле RAW_VALUE в идеальном случае должен быть 0); ещё стоит
заглянуть в журнал ошибок (smartctl -l xerror,error).

> morsov@home ~ $ uname -a
> Linux home.ru 2.6.32-un-def-alt20 #1 SMP PREEMPT Sun Aug 22 05:45:47 UTC 2010 x86_64 GNU/Linux
> 
> диск сата wd WDC WD5000AAKS-00YGA0
> 
> Это что-то с дровами файлухой или таки дисочек примеряет белые тапки?

Ошибка явно уровнем ниже ФС - помимо самого диска, теоретически может
глючить контроллер, также может быть связано с плохим SATA-кабелем или
отваливающимися разъёмами.

Плохой кабель, кроме всего прочего, проявляется в атрибутах SMART
растущим счётчиком UDMA_CRC_Error_Count; некоторые диски поддерживают
более детальную статистику (smartctl -l sataphy).

[-- Attachment #2: Digital signature --]
[-- Type: application/pgp-signature, Size: 198 bytes --]

^ permalink raw reply	[flat|nested] 5+ messages in thread

* Re: [sisyphus] xfs or disk ?
  2010-09-18 14:32 ` Sergey Vlasov
@ 2010-09-18 16:35   ` Alexey Morsov
  2010-09-18 17:57     ` Sergey Vlasov
  0 siblings, 1 reply; 5+ messages in thread
From: Alexey Morsov @ 2010-09-18 16:35 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 3952 bytes --]

On Sat, Sep 18, 2010 at 06:32:26PM +0400, Sergey Vlasov wrote:
> On Sat, Sep 18, 2010 at 05:41:45PM +0400, Alexey Morsov wrote:
> Это реакция xfs на невозможность записи в журнал; перед этим должны
> быть ещё сообщения об ошибках диска (ataN: ...) - надо смотреть их.
в messages никаких error на счет ata не вижу o_O

> 
> > smartctl вроде тоже пишет PASSED
> 
> Общий статус SMART обычно меняется, когда количество нечитаемых
> секторов на диске уже исчисляется тысячами.  Надо смотреть в выводе
> smartctl -A значения отдельных атрибутов (в частности, в атрибутах
> Reallocated_Sector_Ct, Reallocated_Event_Count, Current_Pending_Sector
> в поле RAW_VALUE в идеальном случае должен быть 0); ещё стоит
> заглянуть в журнал ошибок (smartctl -l xerror,error).
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always
  -       0
  196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always
  -       0

  smartctl -l xerror,error - No Errors Logged

> 
> > morsov@home ~ $ uname -a
> > Linux home.ru 2.6.32-un-def-alt20 #1 SMP PREEMPT Sun Aug 22 05:45:47 UTC 2010 x86_64 GNU/Linux
> > 
> > диск сата wd WDC WD5000AAKS-00YGA0
> > 
> > Это что-то с дровами файлухой или таки дисочек примеряет белые тапки?
> 
> Ошибка явно уровнем ниже ФС - помимо самого диска, теоретически может
> глючить контроллер, также может быть связано с плохим SATA-кабелем или
> отваливающимися разъёмами.
Контроллер врядли. На нем висит еще один диск - основной (на нем вся
система включая /home). С ним проблем нет.

А вот кабель... есть у меня запаска - проверим.

> 
> Плохой кабель, кроме всего прочего, проявляется в атрибутах SMART
> растущим счётчиком UDMA_CRC_Error_Count; некоторые диски поддерживают
> более детальную статистику (smartctl -l sataphy).

сейчас на 2.6.35-un-def-alt4.2, вроде больше не проявляется...
в 
morsov@home ~ $ sudo smartctl -l sataphy /dev/sdb1
smartctl 5.39.1 2010-01-28 r3054 [x86_64-alt-linux-gnu] (ALT Linux
5.39.1-alt1)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

General Purpose Logging (GPL) feature set supported
SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  2            0  Command failed due to ICRC error
0x0002  2            0  R_ERR response for data FIS
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2            0  R_ERR response for host-to-device data FIS
0x0005  2            0  R_ERR response for non-data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS
0x000a  2            3  Device-to-host register FISes sent due to a
COMRESET
0x8000  4        10842  Vendor specific


Будем следить. Спасибо за советы.


-- 
WBR,Алексей Морсов
программист ЗАО "ИК "Риком-Траст"
Jabber: samurai@www.fondmarket.ru
ALT Linux Team Member

<Pilot> программы, установленные с помощью cp, нужно удалять с помощью rm

[-- Attachment #2: Digital signature --]
[-- Type: application/pgp-signature, Size: 490 bytes --]

^ permalink raw reply	[flat|nested] 5+ messages in thread

* Re: [sisyphus] xfs or disk ?
  2010-09-18 16:35   ` Alexey Morsov
@ 2010-09-18 17:57     ` Sergey Vlasov
  2010-09-19 12:26       ` Alexey Morsov
  0 siblings, 1 reply; 5+ messages in thread
From: Sergey Vlasov @ 2010-09-18 17:57 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 501 bytes --]

On Sat, Sep 18, 2010 at 08:35:00PM +0400, Alexey Morsov wrote:
> On Sat, Sep 18, 2010 at 06:32:26PM +0400, Sergey Vlasov wrote:
> > On Sat, Sep 18, 2010 at 05:41:45PM +0400, Alexey Morsov wrote:
> > Это реакция xfs на невозможность записи в журнал; перед этим должны
> > быть ещё сообщения об ошибках диска (ataN: ...) - надо смотреть их.
> в messages никаких error на счет ata не вижу o_O

Посмотрите ещё в /var/log/kernel/* (но там придётся выбирать куски из
нескольких файлов по времени).

[-- Attachment #2: Digital signature --]
[-- Type: application/pgp-signature, Size: 198 bytes --]

^ permalink raw reply	[flat|nested] 5+ messages in thread

* Re: [sisyphus] xfs or disk ?
  2010-09-18 17:57     ` Sergey Vlasov
@ 2010-09-19 12:26       ` Alexey Morsov
  0 siblings, 0 replies; 5+ messages in thread
From: Alexey Morsov @ 2010-09-19 12:26 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 4276 bytes --]

On Sat, Sep 18, 2010 at 09:57:59PM +0400, Sergey Vlasov wrote:
 
> Посмотрите ещё в /var/log/kernel/* (но там придётся выбирать куски из
> нескольких файлов по времени).

Вот опять. В messages
Sep 19 16:11:03 home kernel: [ 4990.880025] ata2.00: exception Emask 0x0
SAct 0x0 SErr 0x0 action 0x6 frozen
Sep 19 16:11:03 home kernel: [ 4990.880030] ata2.00: failed command: READ
DMA EXT
Sep 19 16:11:03 home kernel: [ 4990.880036] ata2.00: cmd
25/00:00:a7:b1:d1/00:01:18:00:00/e0 tag 0 dma 131072 in
Sep 19 16:11:03 home kernel: [ 4990.880037]          res
40/00:00:01:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Sep 19 16:11:03 home kernel: [ 4990.880040] ata2.00: status: { DRDY }
Sep 19 16:11:03 home kernel: [ 4990.880047] ata2: hard resetting link
Sep 19 16:11:08 home kernel: [ 4996.396010] ata2: link is slow to respond,
please be patient (ready=0)
Sep 19 16:11:13 home kernel: [ 5000.932009] ata2: SRST failed (errno=-16)
Sep 19 16:11:13 home kernel: [ 5000.932015] ata2: hard resetting link
Sep 19 16:11:19 home kernel: [ 5006.448009] ata2: link is slow to respond,
please be patient (ready=0)
Sep 19 16:11:23 home kernel: [ 5010.984010] ata2: SRST failed (errno=-16)
Sep 19 16:11:23 home kernel: [ 5010.984016] ata2: hard resetting link
Sep 19 16:11:29 home kernel: [ 5016.500010] ata2: link is slow to respond,
please be patient (ready=0)
Sep 19 16:11:58 home kernel: [ 5046.012010] ata2: SRST failed (errno=-16)
Sep 19 16:11:58 home kernel: [ 5046.012016] ata2: limiting SATA link speed
to 1.5 Gbps
Sep 19 16:11:58 home kernel: [ 5046.012021] ata2: hard resetting link
Sep 19 16:12:03 home kernel: [ 5051.024010] ata2: SRST failed (errno=-16)
Sep 19 16:12:03 home kernel: [ 5051.024014] ata2: reset failed, giving up
Sep 19 16:12:03 home kernel: [ 5051.024017] ata2.00: disabled
Sep 19 16:12:03 home kernel: [ 5051.024027] ata2: EH complete
Sep 19 16:12:03 home kernel: [ 5051.024040] sd 1:0:0:0: [sdb] Unhandled
error code
Sep 19 16:12:03 home kernel: [ 5051.024042] sd 1:0:0:0: [sdb] Result:
hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep 19 16:12:03 home kernel: [ 5051.024046] sd 1:0:0:0: [sdb] CDB:
Read(10): 28 00 18 d1 b1 a7 00 01 00 00
Sep 19 16:12:03 home kernel: [ 5051.024057] end_request: I/O error, dev
sdb, sector 416395687


в kernel/errors

Sep 19 16:11:03 home kernel: [ 4990.880025] ata2.00: exception Emask 0x0
SAct 0x0 SErr 0x0 action 0x6 frozen
Sep 19 16:11:03 home kernel: [ 4990.880030] ata2.00: failed command: READ
DMA EXT
Sep 19 16:11:03 home kernel: [ 4990.880036] ata2.00: cmd
25/00:00:a7:b1:d1/00:01:18:00:00/e0 tag 0 dma 131072 in
Sep 19 16:11:03 home kernel: [ 4990.880037]          res
40/00:00:01:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Sep 19 16:11:03 home kernel: [ 4990.880040] ata2.00: status: { DRDY }
Sep 19 16:11:13 home kernel: [ 5000.932009] ata2: SRST failed (errno=-16)
Sep 19 16:11:23 home kernel: [ 5010.984010] ata2: SRST failed (errno=-16)
Sep 19 16:11:58 home kernel: [ 5046.012010] ata2: SRST failed (errno=-16)
Sep 19 16:12:03 home kernel: [ 5051.024010] ata2: SRST failed (errno=-16)
Sep 19 16:12:03 home kernel: [ 5051.024014] ata2: reset failed, giving up
Sep 19 16:12:03 home kernel: [ 5051.024057] end_request: I/O error, dev
sdb, sector 416395687
Sep 19 16:13:01 home kernel: [ 5109.090969] end_request: I/O error, dev
sdb, sector 416395943
Sep 19 16:13:01 home kernel: [ 5109.090991] end_request: I/O error, dev
sdb, sector 574578719


При этом smartctl --all
 
Short INQUIRY response, skip product id
A mandatory SMART command failed: exiting. To continue, add one or more
'-T permissive' options.

-- 
WBR,Алексей Морсов
программист ЗАО "ИК "Риком-Траст"
Jabber: samurai@www.fondmarket.ru
ALT Linux Team Member

<AMorozov> vsu: то есть, я правильно понял, что ваше отношение к
           tmpfs-lookup-traps в данный момент отрицательное?
<vsu> AMorozov: по крайней мере места, напоминающие баги, там есть
<AMorozov> vsu: :-) Удивительная политкорректность ;-)

[-- Attachment #2: Digital signature --]
[-- Type: application/pgp-signature, Size: 490 bytes --]

^ permalink raw reply	[flat|nested] 5+ messages in thread

end of thread, other threads:[~2010-09-19 12:26 UTC | newest]

Thread overview: 5+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2010-09-18 13:41 [sisyphus] xfs or disk ? Alexey Morsov
2010-09-18 14:32 ` Sergey Vlasov
2010-09-18 16:35   ` Alexey Morsov
2010-09-18 17:57     ` Sergey Vlasov
2010-09-19 12:26       ` Alexey Morsov

ALT Linux Sisyphus discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
		sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
	public-inbox-index sisyphus

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sisyphus


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git