From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: X-Spam-Checker-Version: SpamAssassin 3.4.1 (2015-04-28) on sa.local.altlinux.org X-Spam-Level: X-Spam-Status: No, score=-3.4 required=5.0 tests=BAYES_00,DKIM_SIGNED, DKIM_VALID,DKIM_VALID_AU,RP_MATCHES_RCVD autolearn=ham autolearn_force=no version=3.4.1 DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=imath.kiev.ua; s=hydra; t=1599523953; bh=zAzUn3VdWL36WfaUBcBWbknzC6GuZXuTk0kAOG+a0bg=; h=Date:From:To:Subject; b=fqAtdas0KZNBnHYeN6YX/TgkCmUcshV/g2KdJtdb4NwEEhN3c5/Ccf5nJUXgaU9g4 Bod40sqL8IZhoO/VXlVeDwwyu47LQbZLG0QioH1C2ZqlW8hV0oyb9/vHU9htJnwfAl yRwhOAtrJFEmUR60zedHrRGQ1Q1cOGk86L97NDDE= Date: Tue, 8 Sep 2020 03:12:33 +0300 From: Igor Vlasenko To: devel@lists.altlinux.org Message-ID: <20200908001233.GA18009@dad.imath.kiev.ua> MIME-Version: 1.0 Content-Type: text/plain; charset=utf-8 Content-Disposition: inline Content-Transfer-Encoding: 8bit User-Agent: Mutt/1.9.1 (2017-09-22) Subject: [devel] =?utf-8?b?0J7Qv9GC0LjQvNC40LfQuNGA0YPQtdC8IGhhc2hlciA=?= =?utf-8?b?0LTQu9GPINGA0LDQsdC+0YLRiyDRgSDRhNC40LrRgdC40YDQvtCy0LDQvdC9?= =?utf-8?b?0YvQvCDRgNC10L/QvtC30LjRgtC+0YDQuNC10LwuIElJLg==?= X-BeenThere: devel@lists.altlinux.org X-Mailman-Version: 2.1.12 Precedence: list Reply-To: ALT Linux Team development discussions List-Id: ALT Linux Team development discussions List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Tue, 08 Sep 2020 00:12:36 -0000 Archived-At: List-Archive: List-Post: Оптимизируем hasher для работы с фиксированным репозиторием. II. ________________________________________________________________ При запуске hasher, если hasher/cache/ уже есть, то hasher проверяет, не изменился ли репозиторий, и если изменился, то обновляет hasher/cache/, иначе использует hasher/cache/. По условиям задачи у нас фиксированный репозиторий. Это означает, что репозиторий не меняется без нашего ведома -- к примеру, локальное зеркало ежедневного релиза Сизифа. Вторая оптимизация позволяет ускорять любые работы с hasher. Ее суть проста: поскольку мы явно знаем, что репозиторий не менялся, то сообщить об этом hasher'у опцией вроде --same-repository, чтобы он поверил человеку на слово, пропустил тяжелые проверки, и сразу использовал свой hasher/cache/. Немного статистики. Проведем с hasher'ом 1.4.4-alt1 простые бенчмарки на машине altair (2xXeon E5-2640v3). Репозиторий -- чистый Сизиф, рабочий каталог в tmpfs. (первые измерения отбрасываем, чтобы исключить I/O с жестким диском). Замеряем время hsh --initroot-only. mkdir $TMP/hasher time hsh $TMP/hasher --initroot-only --apt-config=/etc/autorepo/apt/apt.conf.Sisyphus.x86_64 Запуск hasher без кеша. hasher создает свой workdir, делает initroot. 18,98s user 5,54s system 104% cpu 23,503 total time hsh $TMP/hasher --initroot-only --apt-config=/etc/autorepo/apt/apt.conf.Sisyphus.x86_64 Запуск hasher с cache/. hasher проверяет свой workdir, делает initroot. 6,36s user 2,73s system 103% cpu 8,805 total hasher-1.4.4, кстати, здесь быстрее (9сек), чем hasher-1.4.3 (10.5сек). Когда я начинал замеры, то пользовался установленным 1.4.3, но на всякий случай проверил, последняя ли это версия, обновился, и далее пользовался уже 1.4.4, в которой Дмитрий сумел уменьшить это время на 1.5 секунды. Не думайте об этих секундах свысока. Экономия в 1.5 секунды по сравнению с hasher-1.4.3 каждый раз при сборке или проверке установкой при пересборке питона для 1000+ исходных и 3500+ бинарных пакетов даст почти два часа ускорения сборки этой транзакции на x86_64. Мне же удалось сэкономить 8.3 секунды на initroot, выполняя его за 2.2с (0,033 total+2,131 total). Это близко к нижнему пределу. Если репозиторий, с которым проводилась сборка, не менялся, то по умолчанию (--without-stuff), hasher должен обновить chroot, а выполнить cpio --extract на hasher/.../chroot.cpio занимает lz4 -d chroot.cpio | time cpio --extract [...] 0,16s user 0,95s system 74% cpu 1,486 total Эта оптимизация естественно просится в сборочницу. Ведь в процессе сборки task'а репозиторий, с которым проводится сборка, не меняется. Даже если за это время Сизиф обновится, сборка все равно будет идти на старом репозитории. Секунды к секундам экономии дадут больше 8 часов ускорения пересборки питона или больше 3 часов ускорения пересборки perl. На одиночном таске это ускорение не так заметно. Пакеты наподобие hplip соберутся быстрее на минуту-полторы, но выстроившаяся очередь в сборочницу соберется существенно быстрее, ведь в очереди экономия суммируется. К сожалению, эта оптимизации нет в нашем hasher'е. Она существует в виде моего приватного форка. В сборочнице для autoimports для ускорения работы с hasher initroot выполнялся только один раз, при старте. Полученный hasher_workdir в параллельных потоках клонировался (см. предыдущее письмо: subj часть. I.) и далее сборчница работала напрямую с hsh-rebuild и hsh-install. Свои изменения я оформил в 2 низкоуровневых патча, отключающих 2 тяжелые проверки с кешем hasher. Для пробы попытался провести более простой патч в апстрим hasher, https://bugzilla.altlinux.org/show_bug.cgi?id=36531 Но не смог. Тогда я занимался переписыванием своей сборочницы для autoimports в полноценную дистрибутивную (локальную) сборочницу для всех желающих. Забросил это переписывание, когда понял, что, помимо сборочницы, придется, по сути, поддерживать собственный форк hasher, что явно было чересчур. Впрочем, тогда я сам понимал и позиционировал в #36531 эти патчи как ускорение работы с клонированным hasher_workdir. Сейчас, разбираясь, я замерил задержки с оригинальным и клонированным hasher_workdir -- они оказались одинаковыми, клонирование здесь не при чем, Переосмысливая, это просто общее ускорение работы hasher с фиксированным репозиторием. При этом вместо двух низкоуровневых опций возможно была бы уместнее одна высокоуровневая вроде --same-repository. Кроме того, эти проверки в hasher, возможно, содержат какие-то логические ошибки. Вспомнилось, что полтора года назад при отладке внутри упомянутых проверок сравнивались списки пакетов, которые почему-то были различными при первом запуске без cache/ и втором запуске с cache/, при том, что репозиторий не менялся. Это приводило к выполнению ненужных тяжелых операций, которые я отключил вместе с проверками. Тогда я эти странности списал на неправильное клонирование, но бенчмарки показали, что это не так. В общем, мне бы очень хотелось избавиться от своего форка hasher и получить ту же функциональность от пакета hasher в Sisyphus. -- I V