ALT Linux Community general discussions
 help / color / mirror / Atom feed
* [Comm] UTF-8 а Master 2.2
@ 2003-03-06 12:31 ivan shmykov
  2003-03-06 13:42 ` Aleksey Novodvorsky
  2003-03-06 14:26 ` [Comm] UTF-8 а Master 2.2 Dmitry V. Levin
  0 siblings, 2 replies; 11+ messages in thread
From: ivan shmykov @ 2003-03-06 12:31 UTC (permalink / raw)
  To: community

Добрый день !

Вопрос, меня интересует поддержка UTF-8, а именно:
1. Поддержка в консоли (шрифты, раскладка и т.п.)
2. поддержка bash (readline), textutils, fileutils с точки зрения UTF8
3. поддержка UTF-8 в ncurses
4. Наличие качественных шрифтов TrueType либо Type1 (в UTF-8)
5. поддержка UTF-8 в ICEWM

Есть ли стратегическая цель по переходу к единой кодировке Unicode, или
она будет поддерживаться постольку поскольку.

С уважением,  
Иван


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] UTF-8 а Master 2.2
  2003-03-06 12:31 [Comm] UTF-8 а Master 2.2 ivan shmykov
@ 2003-03-06 13:42 ` Aleksey Novodvorsky
  2003-03-06 15:20   ` [Comm] UTF-8 а Master 2.2 [JT] Anton Kovalenko
  2003-03-06 14:26 ` [Comm] UTF-8 а Master 2.2 Dmitry V. Levin
  1 sibling, 1 reply; 11+ messages in thread
From: Aleksey Novodvorsky @ 2003-03-06 13:42 UTC (permalink / raw)
  To: community

ivan shmykov пишет:

>Добрый день !
>
>Вопрос, меня интересует поддержка UTF-8, а именно:
>1. Поддержка в консоли (шрифты, раскладка и т.п.)
>
Отчасти, но включение ее стандартными настройками не предусмотрено.

>2. поддержка bash (readline), textutils, fileutils с точки зрения UTF8
>
Поддержка UTF-8 базовыми утилитами Unix -- большая проблема, так как
требует их серьезного концептуального пересмотра  и тщательного аудита.
Мое _личное_ мнение -- сквозной переход Unix на UTF-8 locales
практически невозможен, так как приведет к большим проблемам с security.

>3. поддержка UTF-8 в ncurses
>
Нет

>4. Наличие качественных шрифтов TrueType либо Type1 (в UTF-8)
>
Да.

>5. поддержка UTF-8 в ICEWM
>
Вот этот вопрос не вполне понятен.

>
>Есть ли стратегическая цель по переходу к единой кодировке Unicode, или
>она будет поддерживаться постольку поскольку.
>
Ввод/вывод UTF-8 поддерживается в KDE, Gnome2, OOo, Mozilla, большинстве
программ с GUI. Это вовсе не требует использования UTF locales, хотя,
при желании, их тоже можно использовать.
Что касается перехода к единой (и единственной) кодировке всей системы,
то, на мой взгляд, это слишком комплексный вопрос, который не будет
реально решен в ближайшее время (я не беру в расчет декларации разных
вендоров). На мой взгляд, в рамках POSIX этот вопрос просто нерешаем.

Rgrds, AEN

>
>С уважением,  
>Иван
>  
>




^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] UTF-8 а Master 2.2
  2003-03-06 12:31 [Comm] UTF-8 а Master 2.2 ivan shmykov
  2003-03-06 13:42 ` Aleksey Novodvorsky
@ 2003-03-06 14:26 ` Dmitry V. Levin
  2003-03-27 22:52   ` Mikhail Zabaluev
  1 sibling, 1 reply; 11+ messages in thread
From: Dmitry V. Levin @ 2003-03-06 14:26 UTC (permalink / raw)
  To: ALT Linux general discussion list

[-- Attachment #1: Type: text/plain, Size: 447 bytes --]

On Thu, Mar 06, 2003 at 04:31:39PM +0400, ivan shmykov wrote:
> Вопрос, меня интересует поддержка UTF-8, а именно:
> 2. поддержка bash (readline), textutils, fileutils с точки зрения UTF8

В bash(readline) - да (в смысле поддержки ввода и вывода).

Что касается textutils и fileutils, то совершенно непонятно, о чем идет
речь.

> 3. поддержка UTF-8 в ncurses

Не включено в Master 2.2, скорее всего будет в Sisyphus и в следующей
версии.


--
ldv

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] UTF-8 а Master 2.2 [JT]
  2003-03-06 13:42 ` Aleksey Novodvorsky
@ 2003-03-06 15:20   ` Anton Kovalenko
  2003-03-06 15:28     ` Alexander Bokovoy
                       ` (2 more replies)
  0 siblings, 3 replies; 11+ messages in thread
From: Anton Kovalenko @ 2003-03-06 15:20 UTC (permalink / raw)
  To: community

>>>>> Aleksey Novodvorsky writes:

    >>  2.  поддержка bash  (readline),  textutils, fileutils  с
    >> точки зрения UTF8

    > Поддержка  UTF-8   базовыми  утилитами  Unix  --  большая
    > проблема, так как  требует их  серьезного концептуального
    > пересмотра  и тщательного  аудита. Мое _личное_  мнение --
    > сквозной  переход   Unix  на  UTF-8  locales  практически
    > невозможен,  так  как  приведет  к  большим  проблемам  с
    > security.

Это очень странно слышать.  Сквозной переход на UTF-8 locales --
попросту  бессмысленен.  А  вот корректная  поддержка  multibyte
characters,  _частным  случаем_ которой  является  UTF-8 --  уже
становится традицией.

Что же  касается security, --  в системе, где имена  файлов case
sensitive, да  ещё с такой приличной кодировкой,  как UTF-8 (где
невозможен  \000  в  середине  строки, где  любой  встретившийся
символ  из  диапазона ascii  всегда  означает  самого себя,  где
никакой ascii-символ не  имеет альтернативного представления) --
непонятно, откуда возьмутся проблемы.

    >  Ввод/вывод  UTF-8  поддерживается  в  KDE,  Gnome2,  OOo,
    > Mozilla, большинстве программ с GUI.

Это   они  зря.   Ломают  устоявшиеся   и   _вполне  работающие_
классические иксовые  решения для  i18n, только для  того, чтобы
работать с символами "вне локального charset". Впрочем, некоторым из них
простительно -- портабельность под Windows требует жертв. 
Вот и Tk можно за это простить.

    >> 3. поддержка UTF-8 в ncurses
    >> 
    > Нет

Это при том, что upstream всё давно оттестировано и работает.

    > Что касается перехода  к единой (и единственной) кодировке
    > всей системы,

А эту реплику,  товарищи, мы с негодованием отметаем.  От неё за
версту  разит .... экзистенциоа...  ао... нализьмом  и неверием,
товарищи, в прогрессивную мощь  человечества. В общем, не на тот
идеал смотрите.

Единая   кодировка  для   обмена   информацией  между   иксовыми
приложениями  -  COMPOUND_TEXT.  Единая кодировка  для  удобного
хранения  строк  _внутри одного_  приложения  - wchars  (кстати,
постулировать,  что  "на  самом  деле wchars  --  это  unicode",
нельзя).

А для  utf-8 роль Единой  и Единственной вовсе не  подходит. Она
просто частный случай в зоопарке многобайтовых кодировок. Причём
один из самых простых частных случаев.

P.S.

Между   прочим,  довольно  интересно   наблюдать  за   тем,  как
развивается почти любой open-source проект, где одним из авторов
(или контрибуторов) становится японец. У такого проекта два пути
-- либо  там   появляется  нормальная  (с   моей  точки  зрения)
поддержка   i18n,   либо   рождается   "японизированный"   fork,
бесполезный всем остальным. Но первое бывает чаще, что не может
не радовать.

-- 
With Best /usr/bin/wishes, 
Anton Kovalenko /* http://kovalenko.webzone.ru */


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] UTF-8 а Master 2.2 [JT]
  2003-03-06 15:20   ` [Comm] UTF-8 а Master 2.2 [JT] Anton Kovalenko
@ 2003-03-06 15:28     ` Alexander Bokovoy
  2003-03-06 15:45       ` Anton Kovalenko
  2003-03-06 15:32     ` Aleksey Novodvorsky
  2003-03-27 23:14     ` Mikhail Zabaluev
  2 siblings, 1 reply; 11+ messages in thread
From: Alexander Bokovoy @ 2003-03-06 15:28 UTC (permalink / raw)
  To: community

On Thu, Mar 06, 2003 at 06:20:44PM +0300, Anton Kovalenko wrote:
>     >> 3. поддержка UTF-8 в ncurses
>     > Нет
> 
> Это при том, что upstream всё давно оттестировано и работает.
Работает одновременно для 8-битных кодировок и многобайтных без
перекомпиляции ncurses с выбором режима работы в run-time?

-- 
/ Alexander Bokovoy
---
I dote on his very absence.
		-- William Shakespeare, "The Merchant of Venice"


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] UTF-8 а Master 2.2 [JT]
  2003-03-06 15:20   ` [Comm] UTF-8 а Master 2.2 [JT] Anton Kovalenko
  2003-03-06 15:28     ` Alexander Bokovoy
@ 2003-03-06 15:32     ` Aleksey Novodvorsky
  2003-03-27 23:14     ` Mikhail Zabaluev
  2 siblings, 0 replies; 11+ messages in thread
From: Aleksey Novodvorsky @ 2003-03-06 15:32 UTC (permalink / raw)
  To: community

Anton Kovalenko пишет:

>>>>>>Aleksey Novodvorsky writes:
>>>>>>            
>>>>>>
>
>    >>  2.  поддержка bash  (readline),  textutils, fileutils  с
>    >> точки зрения UTF8
>
>    > Поддержка  UTF-8   базовыми  утилитами  Unix  --  большая
>    > проблема, так как  требует их  серьезного концептуального
>    > пересмотра  и тщательного  аудита. Мое _личное_  мнение --
>    > сквозной  переход   Unix  на  UTF-8  locales  практически
>    > невозможен,  так  как  приведет  к  большим  проблемам  с
>    > security.
>
>Это очень странно слышать.  Сквозной переход на UTF-8 locales --
>попросту  бессмысленен.  А  вот корректная  поддержка  multibyte
>characters,  _частным  случаем_ которой  является  UTF-8 --  уже
>становится традицией.
>
Да, конечно.
Но -- не сквозная. Сквозная поддержка multibyte locales приведет к
описанным мною ранее проблемам.
Сквозная поддержка требует принципиально новых разработок.

>
>Что же  касается security, --  в системе, где имена  файлов case
>sensitive, да  ещё с такой приличной кодировкой,  как UTF-8 (где
>невозможен  \000  в  середине  строки, где  любой  встретившийся
>символ  из  диапазона ascii  всегда  означает  самого себя,  где
>никакой ascii-символ не  имеет альтернативного представления) --
>непонятно, откуда возьмутся проблемы.
>
При чем здесь имена файлов? Когда Вы имеете дело с "символом
неопределенной длины" -- проблемы неизбежны.
На самом деле, до сих пор всплывают проблемы c security даже при работе
в не-POSIX locale.

Rgrds, AEN





^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] UTF-8 а Master 2.2 [JT]
  2003-03-06 15:28     ` Alexander Bokovoy
@ 2003-03-06 15:45       ` Anton Kovalenko
  2003-03-06 16:09         ` Alexander Bokovoy
  0 siblings, 1 reply; 11+ messages in thread
From: Anton Kovalenko @ 2003-03-06 15:45 UTC (permalink / raw)
  To: community

>>>>> Alexander Bokovoy writes:

    >> >> 3. поддержка UTF-8 в ncurses
    >> > Нет
    >> 
    >> Это при том, что upstream всё давно оттестировано и работает.
    > Работает одновременно для 8-битных кодировок и многобайтных без
    > перекомпиляции ncurses с выбором режима работы в run-time?

Увы, нет. С перекомпиляцией и без выбора. (Но, естественно, тот,
что   с  поддержкой   wide   chars,  нормально   работает  и   с
восьмибитными кодировками).

В debian  собирают оба варианта  ncurses (как и  slang, кстати).
Часть зависящего софта собирают с поддержкой wide chars, а часть
-- без.

-- 
With Best /usr/bin/wishes, 
Anton Kovalenko /* http://kovalenko.webzone.ru */


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] UTF-8 а Master 2.2 [JT]
  2003-03-06 15:45       ` Anton Kovalenko
@ 2003-03-06 16:09         ` Alexander Bokovoy
  0 siblings, 0 replies; 11+ messages in thread
From: Alexander Bokovoy @ 2003-03-06 16:09 UTC (permalink / raw)
  To: community

On Thu, Mar 06, 2003 at 06:45:05PM +0300, Anton Kovalenko wrote:
> >>>>> Alexander Bokovoy writes:
> 
>     >> >> 3. поддержка UTF-8 в ncurses
>     >> > Нет
>     >> 
>     >> Это при том, что upstream всё давно оттестировано и работает.
>     > Работает одновременно для 8-битных кодировок и многобайтных без
>     > перекомпиляции ncurses с выбором режима работы в run-time?
> 
> Увы, нет. С перекомпиляцией и без выбора. (Но, естественно, тот,
> что   с  поддержкой   wide   chars,  нормально   работает  и   с
> восьмибитными кодировками).
> 
> В debian  собирают оба варианта  ncurses (как и  slang, кстати).
> Часть зависящего софта собирают с поддержкой wide chars, а часть
> -- без.
Я уже как-то говорил, что не считаю это хорошим решением. По существу, там
работы очень немного для того, чтобы довести до нормального состояния --
надо научиться активировать необходимую ветвь в зависимости от типа
кодировки в текущей локали. А уж как ветвь будет грузиться -- callbacks в
статически скомпилированной ncurses или dlopen в динамической версии -- 
не важно. Важно, чтобы выбор был в run-time, а не compile-time.


-- 
/ Alexander Bokovoy
---
Too much of everything is just enough.
		-- Bob Wier


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: Re: [Comm] UTF-8 а Master 2.2
  2003-03-06 14:26 ` [Comm] UTF-8 а Master 2.2 Dmitry V. Levin
@ 2003-03-27 22:52   ` Mikhail Zabaluev
  0 siblings, 0 replies; 11+ messages in thread
From: Mikhail Zabaluev @ 2003-03-27 22:52 UTC (permalink / raw)
  To: ALT Linux general discussion list

Hello Dmitry,

On Thu, Mar 06, 2003 at 05:26:14PM +0300, Dmitry V. Levin wrote:
>
> On Thu, Mar 06, 2003 at 04:31:39PM +0400, ivan shmykov wrote:
> > Вопрос, меня интересует поддержка UTF-8, а именно:
> > 2. поддержка bash (readline), textutils, fileutils с точки зрения UTF8
> 
> В bash(readline) - да (в смысле поддержки ввода и вывода).
> 
> Что касается textutils и fileutils, то совершенно непонятно, о чем идет
> речь.

Ну, например, о поддержке классов символов в extended regexp,
о которой тут недавно говорилось. Или это надо адресовать
к glibc?

-- 
Stay tuned,
  MhZ                                     JID: mhz@altlinux.org
___________
"Little else matters than to write good code."
-- Karl Lehenbauer


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: Re: [Comm] UTF-8 а Master 2.2 [JT]
  2003-03-06 15:20   ` [Comm] UTF-8 а Master 2.2 [JT] Anton Kovalenko
  2003-03-06 15:28     ` Alexander Bokovoy
  2003-03-06 15:32     ` Aleksey Novodvorsky
@ 2003-03-27 23:14     ` Mikhail Zabaluev
  2003-03-28 10:31       ` Vitaly Ostanin
  2 siblings, 1 reply; 11+ messages in thread
From: Mikhail Zabaluev @ 2003-03-27 23:14 UTC (permalink / raw)
  To: community

Hello Anton,

On Thu, Mar 06, 2003 at 06:20:44PM +0300, Anton Kovalenko wrote:
>
>     >>  2.  поддержка bash  (readline),  textutils, fileutils  с
>     >> точки зрения UTF8
> 
>     > Поддержка  UTF-8   базовыми  утилитами  Unix  --  большая
>     > проблема, так как  требует их  серьезного концептуального
>     > пересмотра  и тщательного  аудита. Мое _личное_  мнение --
>     > сквозной  переход   Unix  на  UTF-8  locales  практически
>     > невозможен,  так  как  приведет  к  большим  проблемам  с
>     > security.
> 
> Это очень странно слышать.  Сквозной переход на UTF-8 locales --
> попросту  бессмысленен.  А  вот корректная  поддержка  multibyte
> characters,  _частным  случаем_ которой  является  UTF-8 --  уже
> становится традицией.
> 
> Что же  касается security, --  в системе, где имена  файлов case
> sensitive, да  ещё с такой приличной кодировкой,  как UTF-8 (где
> невозможен  \000  в  середине  строки, где  любой  встретившийся
> символ  из  диапазона ascii  всегда  означает  самого себя,  где
> никакой ascii-символ не  имеет альтернативного представления) --
> непонятно, откуда возьмутся проблемы.
> 
>     >  Ввод/вывод  UTF-8  поддерживается  в  KDE,  Gnome2,  OOo,
>     > Mozilla, большинстве программ с GUI.
> 
> Это   они  зря.   Ломают  устоявшиеся   и   _вполне  работающие_
> классические иксовые  решения для  i18n, только для  того, чтобы
> работать с символами "вне локального charset". Впрочем, некоторым из них
> простительно -- портабельность под Windows требует жертв. 
> Вот и Tk можно за это простить.
> 
>     >> 3. поддержка UTF-8 в ncurses
>     >> 
>     > Нет
> 
> Это при том, что upstream всё давно оттестировано и работает.
> 
>     > Что касается перехода  к единой (и единственной) кодировке
>     > всей системы,
> 
> А эту реплику,  товарищи, мы с негодованием отметаем.  От неё за
> версту  разит .... экзистенциоа...  ао... нализьмом  и неверием,
> товарищи, в прогрессивную мощь  человечества. В общем, не на тот
> идеал смотрите.
> 
> Единая   кодировка  для   обмена   информацией  между   иксовыми
> приложениями  -  COMPOUND_TEXT.

Ну да, ужас пострашнее MIME, придуманный, наверное, в минуту
отчаяния от заскорузлости стандарта X.

> Единая кодировка  для  удобного
> хранения  строк  _внутри одного_  приложения  - wchars  (кстати,
> постулировать,  что  "на  самом  деле wchars  --  это  unicode",
> нельзя).

Насчёт неидентичности wchar_t и Unicode -- верно подмечено.
И многие среды разработки (не включающие в настоящий момент
GNU) даже с Unicode попали в ловушку 16-битных символов.
Всё это ставит под сомнение портируемость кода с wchar_t,
ведь даже принцип "один wchar -- один символ" не соблюдается.
Более того, наличие в Unicode комбинирующих символов
делает понятия "символ как номер в машинном представлении"
и "символ как единица текста" неэквивалентными, заставляя
прибегать к сложным схемам канонизации.
Насчёт удобства хранения не всё так однозначно:
строки из правильных (32-битных) wchar_t сжирают уж
слишком много места при преимущественном пользовании
ASCII.

> А для  utf-8 роль Единой  и Единственной вовсе не  подходит. Она
> просто частный случай в зоопарке многобайтовых кодировок. Причём
> один из самых простых частных случаев.

Замечательные свойства, подмеченные Вами, делают UTF-8
лучшим из возможных кандидатов на универсальную кодировку.

-- 
Stay tuned,
  MhZ                                     JID: mhz@altlinux.org
___________
I'm still waiting for the advent of the computer science groupie.


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] UTF-8 а Master 2.2 [JT]
  2003-03-27 23:14     ` Mikhail Zabaluev
@ 2003-03-28 10:31       ` Vitaly Ostanin
  0 siblings, 0 replies; 11+ messages in thread
From: Vitaly Ostanin @ 2003-03-28 10:31 UTC (permalink / raw)
  To: community

[-- Attachment #1: Type: text/plain, Size: 1026 bytes --]

On Fri, 28 Mar 2003 02:14:11 +0300
Mikhail Zabaluev <mhz@altlinux.org> wrote:

<skipped/>

> Более того, наличие в Unicode комбинирующих символов
> делает понятия "символ как номер в машинном представлении"
> и "символ как единица текста" неэквивалентными, заставляя
> прибегать к сложным схемам канонизации.
> Насчёт удобства хранения не всё так однозначно:
> строки из правильных (32-битных) wchar_t сжирают уж
> слишком много места при преимущественном пользовании
> ASCII.
> 
> > А для  utf-8 роль Единой  и Единственной вовсе не  подходит.
> > Она просто частный случай в зоопарке многобайтовых кодировок.
> > Причём один из самых простых частных случаев.
> 
> Замечательные свойства, подмеченные Вами, делают UTF-8
> лучшим из возможных кандидатов на универсальную кодировку.

Что подтверждается практическим использованием UTF-8 в качестве
внутреннего представления данных в [the] библиотеке для работы с
XML :)

<skipped/>

-- 
Regards, Vyt
mailto:  vyt@vzljot.ru
JID:     vyt@vzljot.ru

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 11+ messages in thread

end of thread, other threads:[~2003-03-28 10:31 UTC | newest]

Thread overview: 11+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2003-03-06 12:31 [Comm] UTF-8 а Master 2.2 ivan shmykov
2003-03-06 13:42 ` Aleksey Novodvorsky
2003-03-06 15:20   ` [Comm] UTF-8 а Master 2.2 [JT] Anton Kovalenko
2003-03-06 15:28     ` Alexander Bokovoy
2003-03-06 15:45       ` Anton Kovalenko
2003-03-06 16:09         ` Alexander Bokovoy
2003-03-06 15:32     ` Aleksey Novodvorsky
2003-03-27 23:14     ` Mikhail Zabaluev
2003-03-28 10:31       ` Vitaly Ostanin
2003-03-06 14:26 ` [Comm] UTF-8 а Master 2.2 Dmitry V. Levin
2003-03-27 22:52   ` Mikhail Zabaluev

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git