ALT Linux Community general discussions
 help / color / mirror / Atom feed
From: Mikhail Zabaluev <mhz@altlinux.org>
To: community@altlinux.ru
Subject: Re: Re: [Comm] UTF-8 а Master 2.2 [JT]
Date: Fri, 28 Mar 2003 02:14:11 +0300
Message-ID: <20030327231411.GB2082@mhz.mikhail.zabaluev.name> (raw)
In-Reply-To: <87isuw1pyr.fsf_-_@lenin.home>

Hello Anton,

On Thu, Mar 06, 2003 at 06:20:44PM +0300, Anton Kovalenko wrote:
>
>     >>  2.  поддержка bash  (readline),  textutils, fileutils  с
>     >> точки зрения UTF8
> 
>     > Поддержка  UTF-8   базовыми  утилитами  Unix  --  большая
>     > проблема, так как  требует их  серьезного концептуального
>     > пересмотра  и тщательного  аудита. Мое _личное_  мнение --
>     > сквозной  переход   Unix  на  UTF-8  locales  практически
>     > невозможен,  так  как  приведет  к  большим  проблемам  с
>     > security.
> 
> Это очень странно слышать.  Сквозной переход на UTF-8 locales --
> попросту  бессмысленен.  А  вот корректная  поддержка  multibyte
> characters,  _частным  случаем_ которой  является  UTF-8 --  уже
> становится традицией.
> 
> Что же  касается security, --  в системе, где имена  файлов case
> sensitive, да  ещё с такой приличной кодировкой,  как UTF-8 (где
> невозможен  \000  в  середине  строки, где  любой  встретившийся
> символ  из  диапазона ascii  всегда  означает  самого себя,  где
> никакой ascii-символ не  имеет альтернативного представления) --
> непонятно, откуда возьмутся проблемы.
> 
>     >  Ввод/вывод  UTF-8  поддерживается  в  KDE,  Gnome2,  OOo,
>     > Mozilla, большинстве программ с GUI.
> 
> Это   они  зря.   Ломают  устоявшиеся   и   _вполне  работающие_
> классические иксовые  решения для  i18n, только для  того, чтобы
> работать с символами "вне локального charset". Впрочем, некоторым из них
> простительно -- портабельность под Windows требует жертв. 
> Вот и Tk можно за это простить.
> 
>     >> 3. поддержка UTF-8 в ncurses
>     >> 
>     > Нет
> 
> Это при том, что upstream всё давно оттестировано и работает.
> 
>     > Что касается перехода  к единой (и единственной) кодировке
>     > всей системы,
> 
> А эту реплику,  товарищи, мы с негодованием отметаем.  От неё за
> версту  разит .... экзистенциоа...  ао... нализьмом  и неверием,
> товарищи, в прогрессивную мощь  человечества. В общем, не на тот
> идеал смотрите.
> 
> Единая   кодировка  для   обмена   информацией  между   иксовыми
> приложениями  -  COMPOUND_TEXT.

Ну да, ужас пострашнее MIME, придуманный, наверное, в минуту
отчаяния от заскорузлости стандарта X.

> Единая кодировка  для  удобного
> хранения  строк  _внутри одного_  приложения  - wchars  (кстати,
> постулировать,  что  "на  самом  деле wchars  --  это  unicode",
> нельзя).

Насчёт неидентичности wchar_t и Unicode -- верно подмечено.
И многие среды разработки (не включающие в настоящий момент
GNU) даже с Unicode попали в ловушку 16-битных символов.
Всё это ставит под сомнение портируемость кода с wchar_t,
ведь даже принцип "один wchar -- один символ" не соблюдается.
Более того, наличие в Unicode комбинирующих символов
делает понятия "символ как номер в машинном представлении"
и "символ как единица текста" неэквивалентными, заставляя
прибегать к сложным схемам канонизации.
Насчёт удобства хранения не всё так однозначно:
строки из правильных (32-битных) wchar_t сжирают уж
слишком много места при преимущественном пользовании
ASCII.

> А для  utf-8 роль Единой  и Единственной вовсе не  подходит. Она
> просто частный случай в зоопарке многобайтовых кодировок. Причём
> один из самых простых частных случаев.

Замечательные свойства, подмеченные Вами, делают UTF-8
лучшим из возможных кандидатов на универсальную кодировку.

-- 
Stay tuned,
  MhZ                                     JID: mhz@altlinux.org
___________
I'm still waiting for the advent of the computer science groupie.


  parent reply	other threads:[~2003-03-27 23:14 UTC|newest]

Thread overview: 11+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2003-03-06 12:31 [Comm] UTF-8 а Master 2.2 ivan shmykov
2003-03-06 13:42 ` Aleksey Novodvorsky
2003-03-06 15:20   ` [Comm] UTF-8 а Master 2.2 [JT] Anton Kovalenko
2003-03-06 15:28     ` Alexander Bokovoy
2003-03-06 15:45       ` Anton Kovalenko
2003-03-06 16:09         ` Alexander Bokovoy
2003-03-06 15:32     ` Aleksey Novodvorsky
2003-03-27 23:14     ` Mikhail Zabaluev [this message]
2003-03-28 10:31       ` Vitaly Ostanin
2003-03-06 14:26 ` [Comm] UTF-8 а Master 2.2 Dmitry V. Levin
2003-03-27 22:52   ` Mikhail Zabaluev

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=20030327231411.GB2082@mhz.mikhail.zabaluev.name \
    --to=mhz@altlinux.org \
    --cc=community@altlinux.ru \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git