ALT Linux Team development discussions
 help / color / mirror / Atom feed
From: Alexey Tourbin <at@altlinux.ru>
To: ALT Devel discussion list <devel@lists.altlinux.org>
Subject: [devel] статистика
Date: Thu, 23 Aug 2007 23:05:29 +0400
Message-ID: <20070823190529.GE6155@solemn.turbinal> (raw)
In-Reply-To: <20070823123218.GC6155@solemn.turbinal>

[-- Attachment #1: Type: text/plain, Size: 2514 bytes --]

On Thu, Aug 23, 2007 at 04:32:18PM +0400, Alexey Tourbin wrote:
> Очень дорого это сколько, в новых деньгах? :)
> 
> Я и это обсуждал с ldv на конференции.  Порешили на том,
> что нужно поточнее прикинуть статистику.  Какая пропускная
> способность сизифа и средняя загрузка сборочных серверов
> нам нужна, и сколько, исходя из этого, нужно сборочных серверов?
> 
> Думаю, что в ближайшее время ответ на эти вопросы будет получен.
> Тогда можно ставить вопрос ребром.  А заранее вопить "очень дорого",
> впрочем как и "даёшь серверы" с пустыми руками и без понятия, это
> по-моему не стоит так делать.

Я грепнул логи /raid/beehive/old-logs/i586/2007/0812/success/,
выложил сюда: ftp://ftp.altlinux.org/pub/people/at/buildtime

У меня получилась следующая первичная статистика:
среднее время сборки 74 секунды, медиана распределения 27 секунд,
сигма которая СКО она же стандартная девиация 189 секунд,
максимальное время сборки 3273 секунды (у пакета kdebase).

Гистограмма по смыслу похожа на распределение Максвелла. :)
ftp://ftp.altlinux.org/pub/people/at/buildtime.png

Теперь, если кто понимает в мат. статистике, я вопрошаю:
что можно извлечь из этих данных?

Начнем с простого вопроса: что дает среднее время сборки пакета?
Ведь может попасться "неудачный" пакет, и рассчитывать, что он соберётся
за минуту, нельзя (kdebase собирается целый час).  Из статистики
известно "правило трёх сигм" (правда, оно касается распределений,
близких к нормальному).  Это правило сводится к тому, что с надёжностью
больше 99% случайная величина (время сборки) принимает значение
(среднее)плюс-минус(3*сигма), и с надежностью около 95%
(среднее)плюс-минус(2*сигма).

Значит, чтобы нас не "прокатили" на "оптимистичном" среднем значении,
нужно закладывать время сборки пакета 74+2*сигма=74+2*189=452 секунды.

С другой стороны, "время сборки" одного пакета по отношению к нашей
задаче вообще имеет мало смысла.  Мы ведь будем пересобирать серию из
N пакетов подряд.  Из статистики также известно (если чорт меня не
попутал), что с увеличением размеров выборки сигма падает
пропорционально 1/sqrt(N) -- то есть, на пальцах, "размах" отклонения
суммарного времени падает за счет нивелирования выбросов.
Это даёт следующую формулу:

(ВРЕМЯ СБОРКИ СЛУЧАЙНО ВЫБРАННЫХ N src.rpm ПАКЕТОВ) <=
	N * (среднее + 2*сигма/sqrt(N))
где
	среднее = 74 секунды
	сигма = 189 секунда
неравенство выполняется с вероятностью около 90%.

Прошу подписчиков листа обдумать это соображение. :)

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

  reply	other threads:[~2007-08-23 19:05 UTC|newest]

Thread overview: 46+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2007-08-21 21:43 [devel] RFC: тестирование входящих пакетов полной пересборкой сизифа Alexey Tourbin
2007-08-22  5:25 ` Денис Смирнов
2007-08-22  8:22   ` Хихин Руслан
2007-08-23 10:19 ` Alexey Tourbin
2007-08-23 11:10   ` Michael Shigorin
2007-08-23 11:16     ` Mykola S. Grechukh
2007-08-23 11:18       ` Mykola S. Grechukh
2007-08-23 11:52         ` [devel] [JT] " Michael Shigorin
2007-08-23 12:10           ` Mykola S. Grechukh
2007-08-23 12:11             ` Michael Shigorin
2007-08-23 12:32               ` Alexey Tourbin
2007-08-23 19:05                 ` Alexey Tourbin [this message]
2007-08-23 20:25                   ` [devel] статистика Alexey Tourbin
2007-08-23 20:37                   ` Vadim V. Zhytnikov
2007-08-23 19:51                     ` Alexey Tourbin
2007-08-23 21:03                     ` Alexey Tourbin
2007-08-23 21:08                   ` Хихин Руслан
2007-08-23 21:47                     ` Alexey Tourbin
2007-08-23 21:59                       ` Alexey Tourbin
2007-08-23 22:19                       ` Alexey Tourbin
2007-08-23 12:19           ` [devel] [JT] Re: RFC: тестирование входящих пакетов полной пересборкой сизифа Alexey Tourbin
2007-08-23 13:12             ` Michael Shigorin
2007-08-24 11:15               ` Alexey Tourbin
2007-08-25  9:15                 ` Alexey I. Froloff
2007-08-25  9:33                   ` Alexey Tourbin
2007-08-25 10:16                     ` Alexey I. Froloff
2007-08-25 11:25                       ` Igor Vlasenko
2007-08-25 11:36                         ` Igor Vlasenko
2007-08-25 11:48                           ` Michael Shigorin
2007-08-25 11:53                             ` Mykola S. Grechukh
2007-08-25 21:58                               ` Igor Vlasenko
2007-08-25 22:43                                 ` Alexey Tourbin
2007-08-25 23:35                                   ` Igor Vlasenko
2007-08-26 13:38                                   ` Alexey I. Froloff
2007-08-25 18:33                       ` Alexey Tourbin
2007-08-25 19:32                         ` [devel] incominger Michael Shigorin
2007-08-25 20:13                         ` [devel] [JT] Re: RFC: тестирование входящих пакетов полной пересборкой сизифа Денис Смирнов
2007-08-23 13:23   ` [devel] " Alexey Tourbin
2007-08-24 12:51     ` Alexey Tourbin
2007-08-24 21:23     ` [devel] статистика [2] Alexey Tourbin
2007-08-25 14:57       ` [devel] Критерий значимости пакета (Was: статистика) Alexey Rusakov
2007-08-25 20:10         ` Денис Смирнов
2007-08-25 20:28           ` Alexey Tourbin
2007-08-25 22:47             ` Денис Смирнов
2007-08-25 23:55               ` Alexey Tourbin
2007-08-29 20:39       ` [devel] статистика [2] Dmitry V. Levin

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=20070823190529.GE6155@solemn.turbinal \
    --to=at@altlinux.ru \
    --cc=devel@lists.altlinux.org \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

ALT Linux Team development discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/devel/0 devel/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 devel devel/ http://lore.altlinux.org/devel \
		devel@altlinux.org devel@altlinux.ru devel@lists.altlinux.org devel@lists.altlinux.ru devel@linux.iplabs.ru mandrake-russian@linuxteam.iplabs.ru sisyphus@linuxteam.iplabs.ru
	public-inbox-index devel

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.devel


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git