ALT Linux Team development discussions
 help / color / mirror / Atom feed
From: Alexey Tourbin <at@altlinux.ru>
To: devel@altlinux.ru
Subject: [devel] Re: bloom filters
Date: Mon, 19 Sep 2005 01:43:17 +0400
Message-ID: <20050918214317.GM2358@solemn.turbinal.org> (raw)
In-Reply-To: <20050918201834.GL2358@solemn.turbinal.org>

[-- Attachment #1: Type: text/plain, Size: 2034 bytes --]

On Mon, Sep 19, 2005 at 12:18:34AM +0400, Alexey Tourbin wrote:
> Bloom filter используется, например, в spellchecker'ах, когда нужно
> захешировать все "правильные" слова.  Произвольное неправильное слово
> может с очень небольшой вероятность определиться как правильное.

Возвращаюсь к нашим баранам.  Есть список символов def "с адресом" --
эти символы провайдятся, и есть список символов ref "без адреса" --
которые, стало быть, кто-то должен провайдить.

$ awk -F'\t' '{print$NF}' def |sort -u >defsym
$ awk -F'\t' '{print$NF}' ref |sort -u >refsym
$ head defsym
A
A20Proc16
AAAAddAVPToMessage
AAABuildMsgBuffer
AAACloneAVP
AAAConvertAVPToString
AAACreateAVP
AAAFindMatchingAVP
AAAFreeAVP
AAAFreeMessage
$ wc -l defsym refsym
 1592688 defsym
 174130 refsym
 1766818 total
$

Ассиметрия в природе.  Провайдится гораздо больше, чем требуется.
Теперь попробуем воткнуть сюда фильтр Блума.

$ bloom -n 1592688 defsym >defsym.bf
$ ls -s1 defsym defsym.bf
56872 defsym
 1864 defsym.bf
$

Вот!  Меньше минимум на порядок, во всех отношениях.
Пробуем проверить malloc:

$ bloom -e malloc defsym.bf; echo $?
0
$ bloom -e Malloc defsym.bf; echo $?
1
$

Ну.  Работает.  Как и следовало ожидать.  То есть превентивная мера,
которую можно применить для проверки *всех* ELF'ов, а не только
публичных библиотек, состоит в том, что обнаруженные undefined symbols
из вывода `ldd -r' нужно попробовать отыскать в общем "отстойнике".
Если их там нет, то пакет нужно *точно* давить.  Кстати, false positive
в данном случае означает, что по ошибке можно пропустить пакет, который
следовало бы задавить, потому что символ в отстойники будет "найден"
(это в некотором смысле лучше, чем задавить пакет невинный).  Если
добавить в bloom.c элемент случайности, то сбой проверки будет одиночным
явлением.  (Вообще, по поводу сбоев: вероятность сбоев нужно оценивать
комплексно; например, учитывать вероятность выхода из строя сборочных
серверов, которая, кажется, выше статистического 1 процента.)

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

  parent reply	other threads:[~2005-09-18 21:43 UTC|newest]

Thread overview: 49+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2005-09-16  9:33 [devel] ELFs in /usr/share Alexey Tourbin
2005-09-16  9:54 ` [devel] " Alexey Tourbin
2005-09-16 10:24 ` [devel] " Dmitry V. Levin
2005-09-16 10:35   ` [devel] " Michael Shigorin
2006-01-14 17:19     ` Dmitry V. Levin
2006-01-14 22:57       ` Dmitry V. Levin
2006-04-04 22:09         ` [devel] " Dmitry V. Levin
2006-04-05  8:14           ` Michael Shigorin
2006-04-05  8:31           ` Денис Смирнов
2006-04-05 11:15             ` Dmitry V. Levin
2006-04-14 14:36               ` Alexey Tourbin
2006-04-05  8:33           ` Michael Shigorin
2006-04-05 11:12             ` Dmitry V. Levin
2006-04-05 12:03               ` Michael Shigorin
2005-09-17 10:45   ` [devel] " Alexey Tourbin
2005-09-17 15:14   ` Alexey Tourbin
2005-09-17 15:33     ` Alexey I. Froloff
2005-09-17 22:23       ` Alexey Tourbin
2005-09-17 22:32         ` Dmitry V. Levin
2005-09-17 23:00           ` Alexey Tourbin
2005-09-17 23:23             ` Dmitry V. Levin
2005-09-18  8:46               ` Alexey Tourbin
2005-09-18 10:02                 ` Alexey Tourbin
2005-09-18 20:18                   ` [devel] bloom filters Alexey Tourbin
2005-09-18 21:32                     ` [devel] " Michael Shigorin
2005-09-18 21:58                       ` Alexey Tourbin
2005-09-18 22:04                         ` Michael Shigorin
2005-09-18 21:43                     ` Alexey Tourbin [this message]
2005-09-18 21:49                       ` [devel] [JT] " Dmitry V. Levin
2005-09-19  6:47                     ` [devel] " php-coder
2005-09-19  7:19                       ` Alexey Rusakov
2005-09-19 14:43                         ` Ivan Fedorov
2005-09-19 15:03                           ` [devel] " Alexey Tourbin
2005-09-20  5:28                             ` Ivan Fedorov
2005-09-19  7:56                       ` Alexey Tourbin
2005-09-19 23:40                     ` Alexey Tourbin
2005-09-20  5:29                       ` Alexey Rusakov
2005-09-18  5:02             ` [devel] Re: ELFs in /usr/share Alexander Bokovoy
2005-09-18 21:28         ` [devel] проверки, качество, репозитории Michael Shigorin
2005-09-16 10:31 ` [devel] Re: elves in /usr/share Michael Shigorin
2005-09-16 11:03   ` Alexey Tourbin
2005-09-16 11:10     ` Michael Shigorin
2005-09-16 11:22     ` Dmitry V. Levin
2005-09-16 11:43       ` Alexey Tourbin
2005-09-16 11:53       ` Michael Shigorin
2005-09-16 12:18       ` Alexey Tourbin
2005-09-19  6:13       ` Mikhail Zabaluev
2005-09-16 13:17 ` [devel] ELFs " Денис Смирнов
2005-09-19 18:15 ` [devel] U: icu (was: ELFs in /usr/share) Mikhail Zabaluev

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=20050918214317.GM2358@solemn.turbinal.org \
    --to=at@altlinux.ru \
    --cc=devel@altlinux.ru \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

ALT Linux Team development discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/devel/0 devel/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 devel devel/ http://lore.altlinux.org/devel \
		devel@altlinux.org devel@altlinux.ru devel@lists.altlinux.org devel@lists.altlinux.ru devel@linux.iplabs.ru mandrake-russian@linuxteam.iplabs.ru sisyphus@linuxteam.iplabs.ru
	public-inbox-index devel

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.devel


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git