ALT Linux Community general discussions
 help / color / mirror / Atom feed
* [mdk-re] Как определить кодировку?
@ 2001-08-02 11:29 Баталов Григорий
  2001-08-02 11:48 ` [mdk-re] " cornet
  2001-08-02 12:09 ` [mdk-re] Re: [mdk-re] " Dmitri D. Sayakin
  0 siblings, 2 replies; 12+ messages in thread
From: Баталов Григорий @ 2001-08-02 11:29 UTC (permalink / raw)
  To: mandrake-russian

    Никто не помнит, какой программой можно определить
  кодировку файла (koi8-r, cp1251...) ?

-- 
 Баталов Григорий.



^ permalink raw reply	[flat|nested] 12+ messages in thread

* [mdk-re] Re: [mdk-re] Как определить кодировку?
  2001-08-02 11:29 [mdk-re] Как определить кодировку? Баталов Григорий
@ 2001-08-02 11:48 ` cornet
  2001-08-02 11:59   ` Sergey Degtyaryov
  2001-08-02 12:45   ` [mdk-re] " Mikhail Zabaluev
  2001-08-02 12:09 ` [mdk-re] Re: [mdk-re] " Dmitri D. Sayakin
  1 sibling, 2 replies; 12+ messages in thread
From: cornet @ 2001-08-02 11:48 UTC (permalink / raw)
  To: mandrake-russian

Баталов Григорий wrote:
> 
>     Никто не помнит, какой программой можно определить
>   кодировку файла (koi8-r, cp1251...) ?
> 

ИМХО, если кодировка не проставлена в заголовке, то ничто не
позволит Вам определить кодировку, кроме здравого смысла при
прочтении содержимого. Это сродни методам дешифрования путем
"протяжки слов" по признаку осмысленности...

Буду рад если я ошибаюсь и кто то скажет как можно определить
кодировку обычного текстовика кроме как наметанным глазом.

-- 
******** FIRE & STEEL ********



^ permalink raw reply	[flat|nested] 12+ messages in thread

* [mdk-re] Re: [mdk-re] Как определить кодировку?
  2001-08-02 11:48 ` [mdk-re] " cornet
@ 2001-08-02 11:59   ` Sergey Degtyaryov
  2001-08-02 12:08     ` Sergey Degtyaryov
                       ` (2 more replies)
  2001-08-02 12:45   ` [mdk-re] " Mikhail Zabaluev
  1 sibling, 3 replies; 12+ messages in thread
From: Sergey Degtyaryov @ 2001-08-02 11:59 UTC (permalink / raw)
  To: cornet

Доброго времени суток, cornet,

02.08.2001 в 11:52 Вы сказали буквально следующее:

c> Буду рад если я ошибаюсь и кто то скажет как можно определить
c> кодировку обычного текстовика кроме как наметанным глазом.

Относительно win1251<->koi8-r:
Если открыть файл, записанный в win1251 как koi8-r то 99% текста
будет отображено русскими буквами, но в верхнем регистре. Сейчас
проверю обратное.

Это можно и нужно использовать.


Rgds, maga, maga@mail.ru





^ permalink raw reply	[flat|nested] 12+ messages in thread

* [mdk-re] Re: [mdk-re] Как определить кодировку?
  2001-08-02 11:59   ` Sergey Degtyaryov
@ 2001-08-02 12:08     ` Sergey Degtyaryov
  2001-08-02 13:04       ` cornet
  2001-08-02 12:10     ` [mdk-re] Re: [mdk-re] Как определить кодировку? Баталов Григорий
  2001-08-02 22:14     ` Serge Skorokhodov
  2 siblings, 1 reply; 12+ messages in thread
From: Sergey Degtyaryov @ 2001-08-02 12:08 UTC (permalink / raw)
  To: Sergey Degtyaryov

Доброго времени суток, Sergey,

02.08.2001 в 12:16 Вы сказали буквально следующее:

SD> Доброго времени суток, cornet,

SD> 02.08.2001 в 11:52 Вы сказали буквально следующее:

c>> Буду рад если я ошибаюсь и кто то скажет как можно определить
c>> кодировку обычного текстовика кроме как наметанным глазом.

SD> Это можно и нужно использовать.

Да, конвертируется регистр букв русского алфавита.
Таким образом, поставив, например, 50% - как уровень количества
заглавных букв, анализируем текст. Получили больше 50% - текст надо
перекодировать, получили меньше - открыли правильно.
50% - из головы, но думается, что вполне подойдет.
Тексты, естественно средние, крайности вроде ПИСЕМ О НЕМЕДЛЕННОМ
СПАСЕНИИ ОТ ЭТОГО ЛИНУКСА распознаваться не будут.
Естественно все это относится к koi8 и win1251

Rgds, maga, maga@mail.ru





^ permalink raw reply	[flat|nested] 12+ messages in thread

* [mdk-re] Re: [mdk-re] Как определить кодировку?
  2001-08-02 11:29 [mdk-re] Как определить кодировку? Баталов Григорий
  2001-08-02 11:48 ` [mdk-re] " cornet
@ 2001-08-02 12:09 ` Dmitri D. Sayakin
  1 sibling, 0 replies; 12+ messages in thread
From: Dmitri D. Sayakin @ 2001-08-02 12:09 UTC (permalink / raw)
  To: mandrake-russian

On Thu, 2 Aug 2001 11:46:17 +0400
Баталов Григорий <bga@kgok.murmansk.su> wrote:

БГ> Никто не помнит, какой программой можно определить
БГ> кодировку файла (koi8-r, cp1251...) ?
См. Lingua::DetectCharset в перле (на CPAN.org modules/by_module).



^ permalink raw reply	[flat|nested] 12+ messages in thread

* Re: [mdk-re] Re: [mdk-re] Как определить кодировку?
  2001-08-02 11:59   ` Sergey Degtyaryov
  2001-08-02 12:08     ` Sergey Degtyaryov
@ 2001-08-02 12:10     ` Баталов Григорий
  2001-08-02 13:04       ` Antonio
  2001-08-02 22:14     ` Serge Skorokhodov
  2 siblings, 1 reply; 12+ messages in thread
From: Баталов Григорий @ 2001-08-02 12:10 UTC (permalink / raw)
  To: mandrake-russian

Thu, 2 Aug 2001 12:16:18 +0400
Sergey Degtyaryov <maga@globetravel.spb.ru> писал:

SD> c> Буду рад если я ошибаюсь и кто то скажет как можно
SD> определить
SD> c> кодировку обычного текстовика кроме как наметанным глазом.
SD> 
SD> Относительно win1251<->koi8-r:
SD> Если открыть файл, записанный в win1251 как koi8-r то 99%
SD> текста
SD> будет отображено русскими буквами, но в верхнем регистре.
SD> Сейчас
SD> проверю обратное.
SD> 
SD> Это можно и нужно использовать.

    Нет, господа, это я все знаю и умею. Просто недавно
  при обсуждении перекодировки в Midnight Commander кто-то
  предлагал воспользоваться программой _автоматического_
  определения кодировки. Жаль название ее я забыл.

-- 
 Баталов Григорий.



^ permalink raw reply	[flat|nested] 12+ messages in thread

* [mdk-re] Re: Как определить кодировку?
  2001-08-02 11:48 ` [mdk-re] " cornet
  2001-08-02 11:59   ` Sergey Degtyaryov
@ 2001-08-02 12:45   ` Mikhail Zabaluev
  1 sibling, 0 replies; 12+ messages in thread
From: Mikhail Zabaluev @ 2001-08-02 12:45 UTC (permalink / raw)
  To: mandrake-russian

Hello cornet,

On Thu, Aug 02, 2001 at 11:52:04AM +0400, cornet wrote:
>
> Баталов Григорий wrote:
> > 
> >     Никто не помнит, какой программой можно определить
> >   кодировку файла (koi8-r, cp1251...) ?
> > 
> 
> ИМХО, если кодировка не проставлена в заголовке, то ничто не
> позволит Вам определить кодировку, кроме здравого смысла при
> прочтении содержимого. Это сродни методам дешифрования путем
> "протяжки слов" по признаку осмысленности...
> 
> Буду рад если я ошибаюсь и кто то скажет как можно определить
> кодировку обычного текстовика кроме как наметанным глазом.

Почему, статистическим анализом можно определить достаточно достоверно, если
текст не написан, скажем, заглавными буквами.

-- 
Stay tuned,
  MhZ                                     JID: mookid@jabber.org
___________
I am not a politician and my other habits are also good.
		-- A. Ward



^ permalink raw reply	[flat|nested] 12+ messages in thread

* Re: [mdk-re] Re: [mdk-re] Как определить кодировку?
  2001-08-02 12:10     ` [mdk-re] Re: [mdk-re] Как определить кодировку? Баталов Григорий
@ 2001-08-02 13:04       ` Antonio
  2001-08-02 17:23         ` Баталов Григорий
  0 siblings, 1 reply; 12+ messages in thread
From: Antonio @ 2001-08-02 13:04 UTC (permalink / raw)
  To: mandrake-russian

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

On Thu, 2 Aug 2001, Баталов Григорий wrote:

>     Нет, господа, это я все знаю и умею. Просто недавно
>   при обсуждении перекодировки в Midnight Commander кто-то
>   предлагал воспользоваться программой _автоматического_
>   определения кодировки. Жаль название ее я забыл.

Ваш покорный слуга, если не ошибаюсь.

asrecod называется. Маленькая хитрость при сборке: поправить
Makefile на предмет выходной кодировки koi8-r, а не koi8-u.

- -- 
Best regards,
	Tony.			mailto:obidos@mail.ru
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.0.4 (GNU/Linux)
Comment: For info see http://www.gnupg.org

iD8DBQE7aRzw2gaLrWRbr5URAuTDAJ0ca61d0wi1i/Fisfilwmetmo/N+QCff0ct
dWan+WOmMYHQ+opsSjCT4vU=
=tk6m
-----END PGP SIGNATURE-----





^ permalink raw reply	[flat|nested] 12+ messages in thread

* Re: [mdk-re] Re: [mdk-re]  Как определить кодировку?
  2001-08-02 12:08     ` Sergey Degtyaryov
@ 2001-08-02 13:04       ` cornet
  2001-08-02 21:09         ` [mdk-re] Re: [mdk-re] Как определитькодировку? Alex A. Puchkov
  0 siblings, 1 reply; 12+ messages in thread
From: cornet @ 2001-08-02 13:04 UTC (permalink / raw)
  To: mandrake-russian

Sergey Degtyaryov wrote:
> 
> Доброго времени суток, Sergey,
> 
> 02.08.2001 в 12:16 Вы сказали буквально следующее:
> 
> SD> Доброго времени суток, cornet,
> 
> SD> 02.08.2001 в 11:52 Вы сказали буквально следующее:
> 
> c>> Буду рад если я ошибаюсь и кто то скажет как можно определить
> c>> кодировку обычного текстовика кроме как наметанным глазом.
> 
> SD> Это можно и нужно использовать.
> 
> Да, конвертируется регистр букв русского алфавита.
> Таким образом, поставив, например, 50% - как уровень количества
> заглавных букв, анализируем текст. Получили больше 50% - текст надо
> перекодировать, получили меньше - открыли правильно.
> 50% - из головы, но думается, что вполне подойдет.
> Тексты, естественно средние, крайности вроде ПИСЕМ О НЕМЕДЛЕННОМ
> СПАСЕНИИ ОТ ЭТОГО ЛИНУКСА распознаваться не будут.
> Естественно все это относится к koi8 и win1251

Вот именно! Это все _эвристические_ методы :-(( и я очень
сомневаюсь, что кто то сможет предложить строгие математические,
подходящие для любого текста и любой кодировки фактической и
отображаемой.

-- 
******** FIRE & STEEL ********



^ permalink raw reply	[flat|nested] 12+ messages in thread

* Re: [mdk-re] Re: [mdk-re] Как определить кодировку?
  2001-08-02 13:04       ` Antonio
@ 2001-08-02 17:23         ` Баталов Григорий
  0 siblings, 0 replies; 12+ messages in thread
From: Баталов Григорий @ 2001-08-02 17:23 UTC (permalink / raw)
  To: mandrake-russian

Thu, 2 Aug 2001 13:27:08 +0400 (MSD)
Antonio <obidos@mail.ru> писал(а):

> asrecod называется. Маленькая хитрость при сборке: поправить
> Makefile на предмет выходной кодировки koi8-r, а не koi8-u.

      Да! Вот оно, спасибо.

-- 
 Баталов Григорий.



^ permalink raw reply	[flat|nested] 12+ messages in thread

* Re: [mdk-re] Re: [mdk-re] Как определитькодировку?
  2001-08-02 13:04       ` cornet
@ 2001-08-02 21:09         ` Alex A. Puchkov
  0 siblings, 0 replies; 12+ messages in thread
From: Alex A. Puchkov @ 2001-08-02 21:09 UTC (permalink / raw)
  To: mandrake-russian

Приветствую Вас, cornet!  Вы   2 Август 2001 12:35 написали:

> Вот именно! Это все _эвристические_ методы :-(( и я очень
> сомневаюсь, что кто то сможет предложить строгие математические,
> подходящие для любого текста и любой кодировки фактической и
> отображаемой.
Некоторые подмножества множеств символов в кодировке 1251 и кои8 различаются. 
Вот Вам и строгие математические методы :-)

-- 
>> С уважением, "Alex A. Puchkov" <mailex@nm.ru>



^ permalink raw reply	[flat|nested] 12+ messages in thread

* Re: [mdk-re] Re: [mdk-re] Как определить кодировку?
  2001-08-02 11:59   ` Sergey Degtyaryov
  2001-08-02 12:08     ` Sergey Degtyaryov
  2001-08-02 12:10     ` [mdk-re] Re: [mdk-re] Как определить кодировку? Баталов Григорий
@ 2001-08-02 22:14     ` Serge Skorokhodov
  2 siblings, 0 replies; 12+ messages in thread
From: Serge Skorokhodov @ 2001-08-02 22:14 UTC (permalink / raw)
  To: mandrake-russian

Здравствуйте!

> c> Буду рад если я ошибаюсь и кто то скажет как можно определить
> c> кодировку обычного текстовика кроме как наметанным глазом.
> 
> Относительно win1251<->koi8-r:
> Если открыть файл, записанный в win1251 как koi8-r то 99% текста
> будет отображено русскими буквами, но в верхнем регистре.
> Сейчас проверю обратное.
> 
> Это можно и нужно использовать.

Если не очень критично в плане времени, то еще можно проверку
орфографии напускать на перекодированный текст. Хотя, тоже не
абсолют, но в комплексе может помочь:)

-- 
Serge Skorokhodov aka suralis
mailto:suralis@pisem.net



^ permalink raw reply	[flat|nested] 12+ messages in thread

end of thread, other threads:[~2001-08-02 22:14 UTC | newest]

Thread overview: 12+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2001-08-02 11:29 [mdk-re] Как определить кодировку? Баталов Григорий
2001-08-02 11:48 ` [mdk-re] " cornet
2001-08-02 11:59   ` Sergey Degtyaryov
2001-08-02 12:08     ` Sergey Degtyaryov
2001-08-02 13:04       ` cornet
2001-08-02 21:09         ` [mdk-re] Re: [mdk-re] Как определитькодировку? Alex A. Puchkov
2001-08-02 12:10     ` [mdk-re] Re: [mdk-re] Как определить кодировку? Баталов Григорий
2001-08-02 13:04       ` Antonio
2001-08-02 17:23         ` Баталов Григорий
2001-08-02 22:14     ` Serge Skorokhodov
2001-08-02 12:45   ` [mdk-re] " Mikhail Zabaluev
2001-08-02 12:09 ` [mdk-re] Re: [mdk-re] " Dmitri D. Sayakin

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git