From: Alexey Tourbin <at@altlinux.ru> To: devel@lists.altlinux.org Subject: [devel] rpm: rsyncable deflate vs LZMA Date: Thu, 29 May 2008 16:38:46 +0400 Message-ID: <20080529123846.GM7996@solemn.turbinal> (raw) [-- Attachment #1: Type: text/plain, Size: 3322 bytes --] Я уже собирался включить LZMA сжатие для rpm payload (после некоторого внутреннего тестирования), но Александр Боковой напомнил нам про rsyncable патч для deflate сжатия (для gzip и zlib). Поскольку deflate и LZMA алгоритмы по сути похожи (сжатие в два этапа -- замена подстрок по "словарю", точнее, поиск совпадающих подстрок в пределах скользящего окна; и частотное кодирование "букв", когда наиболее часто встречающиеся буквы кодируются ниболее короткими битовыми последовательностями), то для LZMA в принципе возможен такой формат "контейнера", в котором идут rsyncable сжатые блоки (как в zlib). К сожалению, я убедился, что LZMA в текущем виде не может быть использован (или ограниченно модифицирован) таким образом, чтобы получить rsyncable сжатые данные. "Старый" формат контейнера LZMA_Alone вообще не предусматривание разбиение на блоки. Спецификация нового формата носит alpha status, разработчики пишут: "Do not trust the files created by the alpha versions, unless you can uncompress the files with the stable 4.32.x." Кроме того, семантика "разбиения на блоки" в новом LZMA формате отличается от семантики разбиения на блоки в deflate. В общем, если использовать новый формат LZMA контейнера с целью добиться rsyncablity, то это плохо повлияет на сжатие. Поэтому есть два варианта, как быть дальше. 1) Включить LZMA_Alone сжатие, забив на rsyncability. 2) Вернуться к идее rsyncable deflate. Экономия на трафике будет и в том, и в другом случае, но она будет проявляться по-разному. Подробности про формат контейнера. Чтобы эффективно реализовать rsyncability для алгоритмов типа deflate/LZMA, должны быть выполнены следующие условия: 1) небольшой размер окна; 2) продолжение/сохранение прежнего словаря при записи сжатого блока (то есть "восстановление" первого этапа кодирования при начале следующего сжатого блока); 3) повторная инициализация частотного кодирования "букв" (то есть "ресет" второго этапа кодирования при начале следующего сжатого блока). Семантика deflate блоков как раз состоит в том, что при переходе к новому блоку словарь остаётся прежним (возможны backreferences в предыдущие сжатые блоки в пределах окна), а частотное кодирование инициализируется заново (в начале каждого сжатого блока идёт Huffman tree). Восстановление на первом этапе несколько ухудшает rsyncability, то есть сжатые блоки могут различаться из-за несовпадающих backreferences; но за счёт небольшого размера окна (см. требование №1) после "провафленных" таким образом двух-трёх блоков backreferences будут совпадать, и все последующие блоки будут rsyncable. Зато восстановление на первом этапе очень хорошо влияет на коэффициент сжатия. А вот ресет частотного кодирования на втором этапе просто жизненно неоходим для rsyncability, т.к. частотное кодирование определяет бинарное представление сжатых данных (если частотная модель хоть чуть-чуть отличается, то получается полностью несовпадающее побитовое представление). Более частый ресет частотного кодирования (из-за rsyncable patch) отрицательно влияет на коэффициент сжатия, но это влияние огранчивается где-то 1%. В новом формате контейнера LZMA при начале нового блока ресетится как словарь, так и частотное кодирование букв. Из-за ресета словаря коэффициент сжатия заметно падает. [-- Attachment #2: Type: application/pgp-signature, Size: 197 bytes --]
next reply other threads:[~2008-05-29 12:38 UTC|newest] Thread overview: 37+ messages / expand[flat|nested] mbox.gz Atom feed top 2008-05-29 12:38 Alexey Tourbin [this message] 2008-05-29 13:28 ` Alexander Bokovoy 2008-05-29 16:50 ` Alexey Tourbin 2008-05-29 18:37 ` Dmitry V. Levin 2008-05-29 19:50 ` Alexey Tourbin 2008-05-29 20:13 ` Alexey Tourbin 2008-05-29 20:28 ` Led 2008-05-29 20:42 ` Alexey Tourbin 2008-05-29 20:16 ` Alexander Bokovoy 2008-05-29 21:31 ` Alexey Tourbin 2008-05-29 21:56 ` Dmitry V. Levin 2008-05-29 23:23 ` Alexey Tourbin 2008-05-30 21:31 ` Alexey Tourbin 2008-05-31 10:09 ` [devel] rsyncability test: openoffice Alexey Tourbin 2008-05-30 9:27 ` [devel] rpm: rsyncable deflate vs LZMA Alexey Tourbin 2008-05-30 8:21 ` Anton V. Boyarshinov 2008-05-30 11:28 ` Alexey Tourbin 2008-05-30 10:44 ` Anton Farygin 2008-05-30 12:07 ` Alexander Bokovoy 2008-05-30 15:03 ` Anton V. Boyarshinov 2008-05-30 15:09 ` Dmitry V. Levin 2008-05-30 15:17 ` Anton V. Boyarshinov 2008-05-30 15:25 ` Mikhail Gusarov 2008-05-30 15:32 ` Anton V. Boyarshinov 2008-05-30 15:37 ` Mikhail Gusarov 2008-06-01 12:06 ` Anton Farygin 2008-05-31 10:25 ` Alexey Tourbin 2008-05-31 16:59 ` Kirill A. Shutemov 2008-06-01 0:33 ` Alexey Tourbin 2008-06-01 13:07 ` Mikhail Gusarov 2008-06-01 18:08 ` [devel] [JT] fortunezilla :) Michael Shigorin 2008-06-02 1:44 ` Sergey Balbeko 2008-06-02 5:06 ` Mikhail Gusarov 2008-06-02 7:54 ` Alexey I. Froloff 2008-06-02 8:21 ` Michael Shigorin 2008-06-01 19:05 ` [devel] rpm: rsyncable deflate vs LZMA Alexey I. Froloff 2008-05-30 11:47 ` Anton V. Boyarshinov
Reply instructions: You may reply publicly to this message via plain-text email using any one of the following methods: * Save the following mbox file, import it into your mail client, and reply-to-all from there: mbox Avoid top-posting and favor interleaved quoting: https://en.wikipedia.org/wiki/Posting_style#Interleaved_style * Reply using the --to, --cc, and --in-reply-to switches of git-send-email(1): git send-email \ --in-reply-to=20080529123846.GM7996@solemn.turbinal \ --to=at@altlinux.ru \ --cc=devel@lists.altlinux.org \ /path/to/YOUR_REPLY https://kernel.org/pub/software/scm/git/docs/git-send-email.html * If your mail client supports setting the In-Reply-To header via mailto: links, try the mailto: link
ALT Linux Team development discussions This inbox may be cloned and mirrored by anyone: git clone --mirror http://lore.altlinux.org/devel/0 devel/git/0.git # If you have public-inbox 1.1+ installed, you may # initialize and index your mirror using the following commands: public-inbox-init -V2 devel devel/ http://lore.altlinux.org/devel \ devel@altlinux.org devel@altlinux.ru devel@lists.altlinux.org devel@lists.altlinux.ru devel@linux.iplabs.ru mandrake-russian@linuxteam.iplabs.ru sisyphus@linuxteam.iplabs.ru public-inbox-index devel Example config snippet for mirrors. Newsgroup available over NNTP: nntp://lore.altlinux.org/org.altlinux.lists.devel AGPL code for this site: git clone https://public-inbox.org/public-inbox.git