ALT Linux Team development discussions
 help / color / mirror / Atom feed
From: Alexey Tourbin <at@altlinux.ru>
To: devel@lists.altlinux.org
Subject: [devel] java dependencies
Date: Fri, 8 Jun 2007 19:39:03 +0400
Message-ID: <20070608153903.GA7815@solemn.turbinal> (raw)

[-- Attachment #1: Type: text/plain, Size: 5429 bytes --]

Я переделал rpm-build-java (см. /people/at/packages/rpm-build-java.git).
Статус экспериментальный и недоделанный (подразумевает новый rpm-build,
которого пока нет в сизифе), но основные моменты продуманы.

Вкратце, я предлагаю реализовать поиск зависимостей на основе точной
информации из *.class файлов, и примерно с такой же гранулярностью (на уровне
*.class файлов, см. ниже насчет вложенных классов).  Также можно сохранить
Provides зависимости на уровне *.jar файлов (для совместимости с JPackage),
но все Requires зависимости я предлагаю перевести на уровень *.class файлов.

(Для тех, кто совсем не в курсе, поясню, что *.jar файлы -- это zip-архивы,
которые содержат в себе много-много class-файлов -- байткод.  Java умеет
смотреть в *.jar архивы как в обычные каталоги и отыскивать там class-файлы.
Но все реальные зависимости имеют место быть между class-файлами, а не
jar-архивами.  Дальше можно не читать.)

Предлагаемый формат зависимостей имеет вид java(java.lang.Object).

Я пока не во всём разобрался, поэтому ищу специалистов по java (особенно по JVM).

Я прочитал спецификацию "VM Spec: The class File Format"
http://java.sun.com/docs/books/jvms/second_edition/html/ClassFile.doc.html
и буквально по этой спецификации написал на перле парсер class-файлов, который
в первом приближении умеет извлекать зависимости.  Похожий парсер есть в
rpm/tools/javadeps.c, но мой парсер получился в несколько раз короче и проще,
так что написание с нуля я не считаю убитым временем.

Парсер называется jcf-reqprov (java class file, по аналогии с jcf-dump из gcc)
и умеет полностью парсить константный пул и таблицу классов (см. VM Spec).
Предыдущий предельно упрощенный парсер из java.req (egrep -hao 'L[a-zA-Z/_]+;')
делал совсем не то что нужно, хотя и выдавал какие-то зависимости.

Следующий вопрос адресован специалистам по JVM.  Хотелось бы не просто парсить
константный пул и таблицу классов, а дополнить парсер семантикой зависимостей,
чтобы можно было сказать, в чем именно состоит зависимость на некоторый класc
(например, суперкласс, суперинтерфейс и т.п.).  Поддержка семантики
зависимостей в первом приближении мной уже продумана, но пока как следует не
работает.  Мне хотелось бы знать, в каких именно случаях JVM ЗАГРУЖАЕТ другой
class-файл, когда видит на него ссылку.  Например, если некоторый метод умеет
брать аргумент с типом некоторого другого объекта:
	ThisClass.Method(arg=OtherClass)
означает ли это, что JVM сразу же, в процессе начальной обработки
(компиляции) ThisClass, будет также (физически) загружать и OtherClass?
Или же загрузка OtherClass в некотором смысле откладывается, то есть,
например, происходит по факту вызова ThisClass.Method(arg) откуда-то ещё?

Другими словами, семантика зависимостей нужна для того, чтобы отделить существенные
зависимости, без которых точно нельзя обойтись при начальной загрузке данного
class-файла, от вторичных зависимостей, загрузка которых, возможно, является
необязательной, т.е. они сами по себе загружаются откуда-то ещё.  Этим я пытаюсь
сказать, что в rpm-зависимостях у rpm-пакета нужно писать только реально
необходимые классы, а не просто все имена классов, которые удается извлечь
неким нехитрым способом (с помощью dumb парсера).

Перехожу к техническим подробностям.  Я также переделал java.req и сделал
комплементарный java.prov.  Первый положительный результат: поиск Requires
зависимостей в пакете j2se1.5-sun-1.5.0.11-alt4 дал нулевой результат -- все
Requires взаимно уничтожаются с Provides, т.е. зависимости замкнуты.

Несколько менее положительным результатом следует считать размер as-is Provides
зависимостей у этого же пакета -- около 440K (всего около 10000 классов).  При
этом уже используется одна довольно сильная оптимизация -- исключение т.н.
private классов (см. VM Spec).  Впрочем, использование ещё двух эвристических
оптимизаций (хаков) позволило уменьшить список Provides до 120K (всего около
3000 классов в Provides), что уже более приемлемо, хотя и на грани.

Сгруппируем список as-is provides пакета j2se1.5-sun по префиксам:

$ cut -d. -f-2 prov |sort |uniq -c |sort -n |tail
    207 java(java.util
    215 java(sun.text
    258 java(sun.nio
    322 java(sun.awt
    327 java(sun.io
    385 java(java.awt
    399 java(sun.security
    536 java(org.omg
    851 java(javax.swing
   3456 java(com.sun
$

Отсюда видно, что первая эвристическая оптимизация списка provides должна
состоять в том, чтобы исключить (взаимно уничтожить) зависимости вида
java(com.sun.*) и java(sun.*).  Такие зависимости, по идее, относятся к
особенностям реализации и не должны выходить за рамки этой реализации.

Другая менее очевидная оптимизация, которая позволяет сократить размер
зависимостей ещё примерно на 20%, состоит во взаимном уничтожении зависимостей
"с долларом".  Зависимости типа java(Class$Subclass) появляются, когда файл
Class логически содержит в себе вложенный (полностью объявленный и
реализованный) класс Subclass.  В таком случае зависимость на Class$Subclass
должна полностью сводиться на Class.  Эта оптимизация несколько ухудшает
гранулярность зависимостей, особенно с учетом того, что в java нет средств
версионирования классов.  Однако избавление от bloat (излишнего груза)
представляется скорее привлекательным.  Зависимости "с долларом" кажутся
всё же не слишком органичными (ну, не очень красивыми) для rpm-пакетов.

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

             reply	other threads:[~2007-06-08 15:39 UTC|newest]

Thread overview: 5+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2007-06-08 15:39 Alexey Tourbin [this message]
2007-06-08 17:25 ` Igor Vlasenko
2007-06-08 23:51 ` Alexey Rusakov
2007-06-09 10:47 ` Igor Vlasenko
2007-06-09 10:54   ` Epiphanov Sergei

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=20070608153903.GA7815@solemn.turbinal \
    --to=at@altlinux.ru \
    --cc=devel@lists.altlinux.org \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

ALT Linux Team development discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/devel/0 devel/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 devel devel/ http://lore.altlinux.org/devel \
		devel@altlinux.org devel@altlinux.ru devel@lists.altlinux.org devel@lists.altlinux.ru devel@linux.iplabs.ru mandrake-russian@linuxteam.iplabs.ru sisyphus@linuxteam.iplabs.ru
	public-inbox-index devel

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.devel


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git