ALT Linux Team development discussions
 help / color / mirror / Atom feed
From: Alexey Tourbin <at@altlinux.ru>
To: devel@lists.altlinux.org
Subject: [devel] rpm: rsyncable deflate vs LZMA
Date: Thu, 29 May 2008 16:38:46 +0400
Message-ID: <20080529123846.GM7996@solemn.turbinal> (raw)

[-- Attachment #1: Type: text/plain, Size: 3322 bytes --]

Я уже собирался включить LZMA сжатие для rpm payload (после некоторого
внутреннего тестирования), но Александр Боковой напомнил нам про
rsyncable патч для deflate сжатия (для gzip и zlib).

Поскольку deflate и LZMA алгоритмы по сути похожи (сжатие в два этапа --
замена подстрок по "словарю", точнее, поиск совпадающих подстрок в
пределах скользящего окна; и частотное кодирование "букв", когда
наиболее часто встречающиеся буквы кодируются ниболее короткими битовыми
последовательностями), то для LZMA в принципе возможен такой формат
"контейнера", в котором идут rsyncable сжатые блоки (как в zlib).

К сожалению, я убедился, что LZMA в текущем виде не может быть
использован (или ограниченно модифицирован) таким образом, чтобы
получить rsyncable сжатые данные.  "Старый" формат контейнера
LZMA_Alone вообще не предусматривание разбиение на блоки.  Спецификация
нового формата носит alpha status, разработчики пишут: "Do not trust
the files created by the alpha versions, unless you can uncompress
the files with the stable 4.32.x."  Кроме того, семантика "разбиения на
блоки" в новом LZMA формате отличается от семантики разбиения на блоки
в deflate.  В общем, если использовать новый формат LZMA контейнера
с целью добиться rsyncablity, то это плохо повлияет на сжатие.

Поэтому есть два варианта, как быть дальше.
1) Включить LZMA_Alone сжатие, забив на rsyncability.
2) Вернуться к идее rsyncable deflate.

Экономия на трафике будет и в том, и в другом случае, но она будет
проявляться по-разному.

Подробности про формат контейнера.  Чтобы эффективно реализовать
rsyncability для алгоритмов типа deflate/LZMA, должны быть выполнены
следующие условия: 1) небольшой размер окна; 2) продолжение/сохранение
прежнего словаря при записи сжатого блока (то есть "восстановление"
первого этапа кодирования при начале следующего сжатого блока);
3) повторная инициализация частотного кодирования "букв" (то есть
"ресет" второго этапа кодирования при начале следующего сжатого блока).

Семантика deflate блоков как раз состоит в том, что при переходе к
новому блоку словарь остаётся прежним (возможны backreferences в
предыдущие сжатые блоки в пределах окна), а частотное кодирование
инициализируется заново (в начале каждого сжатого блока идёт Huffman
tree).  Восстановление на первом этапе несколько ухудшает rsyncability,
то есть сжатые блоки могут различаться из-за несовпадающих backreferences;
но за счёт небольшого размера окна (см. требование №1) после
"провафленных" таким образом двух-трёх блоков backreferences будут
совпадать, и все последующие блоки будут rsyncable.  Зато восстановление
на первом этапе очень хорошо влияет на коэффициент сжатия.

А вот ресет частотного кодирования на втором этапе просто жизненно
неоходим для rsyncability, т.к. частотное кодирование определяет
бинарное представление сжатых данных (если частотная модель хоть
чуть-чуть отличается, то получается полностью несовпадающее побитовое
представление).

Более частый ресет частотного кодирования (из-за rsyncable patch)
отрицательно влияет на коэффициент сжатия, но это влияние огранчивается
где-то 1%.

В новом формате контейнера LZMA при начале нового блока ресетится
как словарь, так и частотное кодирование букв.  Из-за ресета словаря
коэффициент сжатия заметно падает.

[-- Attachment #2: Type: application/pgp-signature, Size: 197 bytes --]

             reply	other threads:[~2008-05-29 12:38 UTC|newest]

Thread overview: 37+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2008-05-29 12:38 Alexey Tourbin [this message]
2008-05-29 13:28 ` Alexander Bokovoy
2008-05-29 16:50   ` Alexey Tourbin
2008-05-29 18:37   ` Dmitry V. Levin
2008-05-29 19:50     ` Alexey Tourbin
2008-05-29 20:13       ` Alexey Tourbin
2008-05-29 20:28         ` Led
2008-05-29 20:42           ` Alexey Tourbin
2008-05-29 20:16       ` Alexander Bokovoy
2008-05-29 21:31     ` Alexey Tourbin
2008-05-29 21:56       ` Dmitry V. Levin
2008-05-29 23:23         ` Alexey Tourbin
2008-05-30 21:31           ` Alexey Tourbin
2008-05-31 10:09             ` [devel] rsyncability test: openoffice Alexey Tourbin
2008-05-30  9:27         ` [devel] rpm: rsyncable deflate vs LZMA Alexey Tourbin
2008-05-30  8:21 ` Anton V. Boyarshinov
2008-05-30 11:28   ` Alexey Tourbin
2008-05-30 10:44     ` Anton Farygin
2008-05-30 12:07       ` Alexander Bokovoy
2008-05-30 15:03         ` Anton V. Boyarshinov
2008-05-30 15:09           ` Dmitry V. Levin
2008-05-30 15:17             ` Anton V. Boyarshinov
2008-05-30 15:25               ` Mikhail Gusarov
2008-05-30 15:32                 ` Anton V. Boyarshinov
2008-05-30 15:37                   ` Mikhail Gusarov
2008-06-01 12:06         ` Anton Farygin
2008-05-31 10:25       ` Alexey Tourbin
2008-05-31 16:59         ` Kirill A. Shutemov
2008-06-01  0:33           ` Alexey Tourbin
2008-06-01 13:07             ` Mikhail Gusarov
2008-06-01 18:08               ` [devel] [JT] fortunezilla :) Michael Shigorin
2008-06-02  1:44                 ` Sergey Balbeko
2008-06-02  5:06                   ` Mikhail Gusarov
2008-06-02  7:54                     ` Alexey I. Froloff
2008-06-02  8:21                   ` Michael Shigorin
2008-06-01 19:05               ` [devel] rpm: rsyncable deflate vs LZMA Alexey I. Froloff
2008-05-30 11:47     ` Anton V. Boyarshinov

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=20080529123846.GM7996@solemn.turbinal \
    --to=at@altlinux.ru \
    --cc=devel@lists.altlinux.org \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

ALT Linux Team development discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/devel/0 devel/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 devel devel/ http://lore.altlinux.org/devel \
		devel@altlinux.org devel@altlinux.ru devel@lists.altlinux.org devel@lists.altlinux.ru devel@linux.iplabs.ru mandrake-russian@linuxteam.iplabs.ru sisyphus@linuxteam.iplabs.ru
	public-inbox-index devel

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.devel


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git