* [mdk-re] Как определить кодировку?
@ 2001-08-02 11:29 Баталов Григорий
2001-08-02 11:48 ` [mdk-re] " cornet
2001-08-02 12:09 ` [mdk-re] Re: [mdk-re] " Dmitri D. Sayakin
0 siblings, 2 replies; 12+ messages in thread
From: Баталов Григорий @ 2001-08-02 11:29 UTC (permalink / raw)
To: mandrake-russian
Никто не помнит, какой программой можно определить
кодировку файла (koi8-r, cp1251...) ?
--
Баталов Григорий.
^ permalink raw reply [flat|nested] 12+ messages in thread
* [mdk-re] Re: [mdk-re] Как определить кодировку?
2001-08-02 11:29 [mdk-re] Как определить кодировку? Баталов Григорий
@ 2001-08-02 11:48 ` cornet
2001-08-02 11:59 ` Sergey Degtyaryov
2001-08-02 12:45 ` [mdk-re] " Mikhail Zabaluev
2001-08-02 12:09 ` [mdk-re] Re: [mdk-re] " Dmitri D. Sayakin
1 sibling, 2 replies; 12+ messages in thread
From: cornet @ 2001-08-02 11:48 UTC (permalink / raw)
To: mandrake-russian
Баталов Григорий wrote:
>
> Никто не помнит, какой программой можно определить
> кодировку файла (koi8-r, cp1251...) ?
>
ИМХО, если кодировка не проставлена в заголовке, то ничто не
позволит Вам определить кодировку, кроме здравого смысла при
прочтении содержимого. Это сродни методам дешифрования путем
"протяжки слов" по признаку осмысленности...
Буду рад если я ошибаюсь и кто то скажет как можно определить
кодировку обычного текстовика кроме как наметанным глазом.
--
******** FIRE & STEEL ********
^ permalink raw reply [flat|nested] 12+ messages in thread
* [mdk-re] Re: [mdk-re] Как определить кодировку?
2001-08-02 11:48 ` [mdk-re] " cornet
@ 2001-08-02 11:59 ` Sergey Degtyaryov
2001-08-02 12:08 ` Sergey Degtyaryov
` (2 more replies)
2001-08-02 12:45 ` [mdk-re] " Mikhail Zabaluev
1 sibling, 3 replies; 12+ messages in thread
From: Sergey Degtyaryov @ 2001-08-02 11:59 UTC (permalink / raw)
To: cornet
Доброго времени суток, cornet,
02.08.2001 в 11:52 Вы сказали буквально следующее:
c> Буду рад если я ошибаюсь и кто то скажет как можно определить
c> кодировку обычного текстовика кроме как наметанным глазом.
Относительно win1251<->koi8-r:
Если открыть файл, записанный в win1251 как koi8-r то 99% текста
будет отображено русскими буквами, но в верхнем регистре. Сейчас
проверю обратное.
Это можно и нужно использовать.
Rgds, maga, maga@mail.ru
^ permalink raw reply [flat|nested] 12+ messages in thread
* [mdk-re] Re: [mdk-re] Как определить кодировку?
2001-08-02 11:59 ` Sergey Degtyaryov
@ 2001-08-02 12:08 ` Sergey Degtyaryov
2001-08-02 13:04 ` cornet
2001-08-02 12:10 ` [mdk-re] Re: [mdk-re] Как определить кодировку? Баталов Григорий
2001-08-02 22:14 ` Serge Skorokhodov
2 siblings, 1 reply; 12+ messages in thread
From: Sergey Degtyaryov @ 2001-08-02 12:08 UTC (permalink / raw)
To: Sergey Degtyaryov
Доброго времени суток, Sergey,
02.08.2001 в 12:16 Вы сказали буквально следующее:
SD> Доброго времени суток, cornet,
SD> 02.08.2001 в 11:52 Вы сказали буквально следующее:
c>> Буду рад если я ошибаюсь и кто то скажет как можно определить
c>> кодировку обычного текстовика кроме как наметанным глазом.
SD> Это можно и нужно использовать.
Да, конвертируется регистр букв русского алфавита.
Таким образом, поставив, например, 50% - как уровень количества
заглавных букв, анализируем текст. Получили больше 50% - текст надо
перекодировать, получили меньше - открыли правильно.
50% - из головы, но думается, что вполне подойдет.
Тексты, естественно средние, крайности вроде ПИСЕМ О НЕМЕДЛЕННОМ
СПАСЕНИИ ОТ ЭТОГО ЛИНУКСА распознаваться не будут.
Естественно все это относится к koi8 и win1251
Rgds, maga, maga@mail.ru
^ permalink raw reply [flat|nested] 12+ messages in thread
* [mdk-re] Re: [mdk-re] Как определить кодировку?
2001-08-02 11:29 [mdk-re] Как определить кодировку? Баталов Григорий
2001-08-02 11:48 ` [mdk-re] " cornet
@ 2001-08-02 12:09 ` Dmitri D. Sayakin
1 sibling, 0 replies; 12+ messages in thread
From: Dmitri D. Sayakin @ 2001-08-02 12:09 UTC (permalink / raw)
To: mandrake-russian
On Thu, 2 Aug 2001 11:46:17 +0400
Баталов Григорий <bga@kgok.murmansk.su> wrote:
БГ> Никто не помнит, какой программой можно определить
БГ> кодировку файла (koi8-r, cp1251...) ?
См. Lingua::DetectCharset в перле (на CPAN.org modules/by_module).
^ permalink raw reply [flat|nested] 12+ messages in thread
* Re: [mdk-re] Re: [mdk-re] Как определить кодировку?
2001-08-02 11:59 ` Sergey Degtyaryov
2001-08-02 12:08 ` Sergey Degtyaryov
@ 2001-08-02 12:10 ` Баталов Григорий
2001-08-02 13:04 ` Antonio
2001-08-02 22:14 ` Serge Skorokhodov
2 siblings, 1 reply; 12+ messages in thread
From: Баталов Григорий @ 2001-08-02 12:10 UTC (permalink / raw)
To: mandrake-russian
Thu, 2 Aug 2001 12:16:18 +0400
Sergey Degtyaryov <maga@globetravel.spb.ru> писал:
SD> c> Буду рад если я ошибаюсь и кто то скажет как можно
SD> определить
SD> c> кодировку обычного текстовика кроме как наметанным глазом.
SD>
SD> Относительно win1251<->koi8-r:
SD> Если открыть файл, записанный в win1251 как koi8-r то 99%
SD> текста
SD> будет отображено русскими буквами, но в верхнем регистре.
SD> Сейчас
SD> проверю обратное.
SD>
SD> Это можно и нужно использовать.
Нет, господа, это я все знаю и умею. Просто недавно
при обсуждении перекодировки в Midnight Commander кто-то
предлагал воспользоваться программой _автоматического_
определения кодировки. Жаль название ее я забыл.
--
Баталов Григорий.
^ permalink raw reply [flat|nested] 12+ messages in thread
* [mdk-re] Re: Как определить кодировку?
2001-08-02 11:48 ` [mdk-re] " cornet
2001-08-02 11:59 ` Sergey Degtyaryov
@ 2001-08-02 12:45 ` Mikhail Zabaluev
1 sibling, 0 replies; 12+ messages in thread
From: Mikhail Zabaluev @ 2001-08-02 12:45 UTC (permalink / raw)
To: mandrake-russian
Hello cornet,
On Thu, Aug 02, 2001 at 11:52:04AM +0400, cornet wrote:
>
> Баталов Григорий wrote:
> >
> > Никто не помнит, какой программой можно определить
> > кодировку файла (koi8-r, cp1251...) ?
> >
>
> ИМХО, если кодировка не проставлена в заголовке, то ничто не
> позволит Вам определить кодировку, кроме здравого смысла при
> прочтении содержимого. Это сродни методам дешифрования путем
> "протяжки слов" по признаку осмысленности...
>
> Буду рад если я ошибаюсь и кто то скажет как можно определить
> кодировку обычного текстовика кроме как наметанным глазом.
Почему, статистическим анализом можно определить достаточно достоверно, если
текст не написан, скажем, заглавными буквами.
--
Stay tuned,
MhZ JID: mookid@jabber.org
___________
I am not a politician and my other habits are also good.
-- A. Ward
^ permalink raw reply [flat|nested] 12+ messages in thread
* Re: [mdk-re] Re: [mdk-re] Как определить кодировку?
2001-08-02 12:10 ` [mdk-re] Re: [mdk-re] Как определить кодировку? Баталов Григорий
@ 2001-08-02 13:04 ` Antonio
2001-08-02 17:23 ` Баталов Григорий
0 siblings, 1 reply; 12+ messages in thread
From: Antonio @ 2001-08-02 13:04 UTC (permalink / raw)
To: mandrake-russian
-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1
On Thu, 2 Aug 2001, Баталов Григорий wrote:
> Нет, господа, это я все знаю и умею. Просто недавно
> при обсуждении перекодировки в Midnight Commander кто-то
> предлагал воспользоваться программой _автоматического_
> определения кодировки. Жаль название ее я забыл.
Ваш покорный слуга, если не ошибаюсь.
asrecod называется. Маленькая хитрость при сборке: поправить
Makefile на предмет выходной кодировки koi8-r, а не koi8-u.
- --
Best regards,
Tony. mailto:obidos@mail.ru
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.0.4 (GNU/Linux)
Comment: For info see http://www.gnupg.org
iD8DBQE7aRzw2gaLrWRbr5URAuTDAJ0ca61d0wi1i/Fisfilwmetmo/N+QCff0ct
dWan+WOmMYHQ+opsSjCT4vU=
=tk6m
-----END PGP SIGNATURE-----
^ permalink raw reply [flat|nested] 12+ messages in thread
* Re: [mdk-re] Re: [mdk-re] Как определить кодировку?
2001-08-02 12:08 ` Sergey Degtyaryov
@ 2001-08-02 13:04 ` cornet
2001-08-02 21:09 ` [mdk-re] Re: [mdk-re] Как определитькодировку? Alex A. Puchkov
0 siblings, 1 reply; 12+ messages in thread
From: cornet @ 2001-08-02 13:04 UTC (permalink / raw)
To: mandrake-russian
Sergey Degtyaryov wrote:
>
> Доброго времени суток, Sergey,
>
> 02.08.2001 в 12:16 Вы сказали буквально следующее:
>
> SD> Доброго времени суток, cornet,
>
> SD> 02.08.2001 в 11:52 Вы сказали буквально следующее:
>
> c>> Буду рад если я ошибаюсь и кто то скажет как можно определить
> c>> кодировку обычного текстовика кроме как наметанным глазом.
>
> SD> Это можно и нужно использовать.
>
> Да, конвертируется регистр букв русского алфавита.
> Таким образом, поставив, например, 50% - как уровень количества
> заглавных букв, анализируем текст. Получили больше 50% - текст надо
> перекодировать, получили меньше - открыли правильно.
> 50% - из головы, но думается, что вполне подойдет.
> Тексты, естественно средние, крайности вроде ПИСЕМ О НЕМЕДЛЕННОМ
> СПАСЕНИИ ОТ ЭТОГО ЛИНУКСА распознаваться не будут.
> Естественно все это относится к koi8 и win1251
Вот именно! Это все _эвристические_ методы :-(( и я очень
сомневаюсь, что кто то сможет предложить строгие математические,
подходящие для любого текста и любой кодировки фактической и
отображаемой.
--
******** FIRE & STEEL ********
^ permalink raw reply [flat|nested] 12+ messages in thread
* Re: [mdk-re] Re: [mdk-re] Как определить кодировку?
2001-08-02 13:04 ` Antonio
@ 2001-08-02 17:23 ` Баталов Григорий
0 siblings, 0 replies; 12+ messages in thread
From: Баталов Григорий @ 2001-08-02 17:23 UTC (permalink / raw)
To: mandrake-russian
Thu, 2 Aug 2001 13:27:08 +0400 (MSD)
Antonio <obidos@mail.ru> писал(а):
> asrecod называется. Маленькая хитрость при сборке: поправить
> Makefile на предмет выходной кодировки koi8-r, а не koi8-u.
Да! Вот оно, спасибо.
--
Баталов Григорий.
^ permalink raw reply [flat|nested] 12+ messages in thread
* Re: [mdk-re] Re: [mdk-re] Как определитькодировку?
2001-08-02 13:04 ` cornet
@ 2001-08-02 21:09 ` Alex A. Puchkov
0 siblings, 0 replies; 12+ messages in thread
From: Alex A. Puchkov @ 2001-08-02 21:09 UTC (permalink / raw)
To: mandrake-russian
Приветствую Вас, cornet! Вы 2 Август 2001 12:35 написали:
> Вот именно! Это все _эвристические_ методы :-(( и я очень
> сомневаюсь, что кто то сможет предложить строгие математические,
> подходящие для любого текста и любой кодировки фактической и
> отображаемой.
Некоторые подмножества множеств символов в кодировке 1251 и кои8 различаются.
Вот Вам и строгие математические методы :-)
--
>> С уважением, "Alex A. Puchkov" <mailex@nm.ru>
^ permalink raw reply [flat|nested] 12+ messages in thread
* Re: [mdk-re] Re: [mdk-re] Как определить кодировку?
2001-08-02 11:59 ` Sergey Degtyaryov
2001-08-02 12:08 ` Sergey Degtyaryov
2001-08-02 12:10 ` [mdk-re] Re: [mdk-re] Как определить кодировку? Баталов Григорий
@ 2001-08-02 22:14 ` Serge Skorokhodov
2 siblings, 0 replies; 12+ messages in thread
From: Serge Skorokhodov @ 2001-08-02 22:14 UTC (permalink / raw)
To: mandrake-russian
Здравствуйте!
> c> Буду рад если я ошибаюсь и кто то скажет как можно определить
> c> кодировку обычного текстовика кроме как наметанным глазом.
>
> Относительно win1251<->koi8-r:
> Если открыть файл, записанный в win1251 как koi8-r то 99% текста
> будет отображено русскими буквами, но в верхнем регистре.
> Сейчас проверю обратное.
>
> Это можно и нужно использовать.
Если не очень критично в плане времени, то еще можно проверку
орфографии напускать на перекодированный текст. Хотя, тоже не
абсолют, но в комплексе может помочь:)
--
Serge Skorokhodov aka suralis
mailto:suralis@pisem.net
^ permalink raw reply [flat|nested] 12+ messages in thread
end of thread, other threads:[~2001-08-02 22:14 UTC | newest]
Thread overview: 12+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2001-08-02 11:29 [mdk-re] Как определить кодировку? Баталов Григорий
2001-08-02 11:48 ` [mdk-re] " cornet
2001-08-02 11:59 ` Sergey Degtyaryov
2001-08-02 12:08 ` Sergey Degtyaryov
2001-08-02 13:04 ` cornet
2001-08-02 21:09 ` [mdk-re] Re: [mdk-re] Как определитькодировку? Alex A. Puchkov
2001-08-02 12:10 ` [mdk-re] Re: [mdk-re] Как определить кодировку? Баталов Григорий
2001-08-02 13:04 ` Antonio
2001-08-02 17:23 ` Баталов Григорий
2001-08-02 22:14 ` Serge Skorokhodov
2001-08-02 12:45 ` [mdk-re] " Mikhail Zabaluev
2001-08-02 12:09 ` [mdk-re] Re: [mdk-re] " Dmitri D. Sayakin
ALT Linux Community general discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
public-inbox-index community
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.community
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git