From: Alexey Tourbin <at@altlinux.ru> To: devel@lists.altlinux.org Subject: [devel] java dependencies Date: Fri, 8 Jun 2007 19:39:03 +0400 Message-ID: <20070608153903.GA7815@solemn.turbinal> (raw) [-- Attachment #1: Type: text/plain, Size: 5429 bytes --] Я переделал rpm-build-java (см. /people/at/packages/rpm-build-java.git). Статус экспериментальный и недоделанный (подразумевает новый rpm-build, которого пока нет в сизифе), но основные моменты продуманы. Вкратце, я предлагаю реализовать поиск зависимостей на основе точной информации из *.class файлов, и примерно с такой же гранулярностью (на уровне *.class файлов, см. ниже насчет вложенных классов). Также можно сохранить Provides зависимости на уровне *.jar файлов (для совместимости с JPackage), но все Requires зависимости я предлагаю перевести на уровень *.class файлов. (Для тех, кто совсем не в курсе, поясню, что *.jar файлы -- это zip-архивы, которые содержат в себе много-много class-файлов -- байткод. Java умеет смотреть в *.jar архивы как в обычные каталоги и отыскивать там class-файлы. Но все реальные зависимости имеют место быть между class-файлами, а не jar-архивами. Дальше можно не читать.) Предлагаемый формат зависимостей имеет вид java(java.lang.Object). Я пока не во всём разобрался, поэтому ищу специалистов по java (особенно по JVM). Я прочитал спецификацию "VM Spec: The class File Format" http://java.sun.com/docs/books/jvms/second_edition/html/ClassFile.doc.html и буквально по этой спецификации написал на перле парсер class-файлов, который в первом приближении умеет извлекать зависимости. Похожий парсер есть в rpm/tools/javadeps.c, но мой парсер получился в несколько раз короче и проще, так что написание с нуля я не считаю убитым временем. Парсер называется jcf-reqprov (java class file, по аналогии с jcf-dump из gcc) и умеет полностью парсить константный пул и таблицу классов (см. VM Spec). Предыдущий предельно упрощенный парсер из java.req (egrep -hao 'L[a-zA-Z/_]+;') делал совсем не то что нужно, хотя и выдавал какие-то зависимости. Следующий вопрос адресован специалистам по JVM. Хотелось бы не просто парсить константный пул и таблицу классов, а дополнить парсер семантикой зависимостей, чтобы можно было сказать, в чем именно состоит зависимость на некоторый класc (например, суперкласс, суперинтерфейс и т.п.). Поддержка семантики зависимостей в первом приближении мной уже продумана, но пока как следует не работает. Мне хотелось бы знать, в каких именно случаях JVM ЗАГРУЖАЕТ другой class-файл, когда видит на него ссылку. Например, если некоторый метод умеет брать аргумент с типом некоторого другого объекта: ThisClass.Method(arg=OtherClass) означает ли это, что JVM сразу же, в процессе начальной обработки (компиляции) ThisClass, будет также (физически) загружать и OtherClass? Или же загрузка OtherClass в некотором смысле откладывается, то есть, например, происходит по факту вызова ThisClass.Method(arg) откуда-то ещё? Другими словами, семантика зависимостей нужна для того, чтобы отделить существенные зависимости, без которых точно нельзя обойтись при начальной загрузке данного class-файла, от вторичных зависимостей, загрузка которых, возможно, является необязательной, т.е. они сами по себе загружаются откуда-то ещё. Этим я пытаюсь сказать, что в rpm-зависимостях у rpm-пакета нужно писать только реально необходимые классы, а не просто все имена классов, которые удается извлечь неким нехитрым способом (с помощью dumb парсера). Перехожу к техническим подробностям. Я также переделал java.req и сделал комплементарный java.prov. Первый положительный результат: поиск Requires зависимостей в пакете j2se1.5-sun-1.5.0.11-alt4 дал нулевой результат -- все Requires взаимно уничтожаются с Provides, т.е. зависимости замкнуты. Несколько менее положительным результатом следует считать размер as-is Provides зависимостей у этого же пакета -- около 440K (всего около 10000 классов). При этом уже используется одна довольно сильная оптимизация -- исключение т.н. private классов (см. VM Spec). Впрочем, использование ещё двух эвристических оптимизаций (хаков) позволило уменьшить список Provides до 120K (всего около 3000 классов в Provides), что уже более приемлемо, хотя и на грани. Сгруппируем список as-is provides пакета j2se1.5-sun по префиксам: $ cut -d. -f-2 prov |sort |uniq -c |sort -n |tail 207 java(java.util 215 java(sun.text 258 java(sun.nio 322 java(sun.awt 327 java(sun.io 385 java(java.awt 399 java(sun.security 536 java(org.omg 851 java(javax.swing 3456 java(com.sun $ Отсюда видно, что первая эвристическая оптимизация списка provides должна состоять в том, чтобы исключить (взаимно уничтожить) зависимости вида java(com.sun.*) и java(sun.*). Такие зависимости, по идее, относятся к особенностям реализации и не должны выходить за рамки этой реализации. Другая менее очевидная оптимизация, которая позволяет сократить размер зависимостей ещё примерно на 20%, состоит во взаимном уничтожении зависимостей "с долларом". Зависимости типа java(Class$Subclass) появляются, когда файл Class логически содержит в себе вложенный (полностью объявленный и реализованный) класс Subclass. В таком случае зависимость на Class$Subclass должна полностью сводиться на Class. Эта оптимизация несколько ухудшает гранулярность зависимостей, особенно с учетом того, что в java нет средств версионирования классов. Однако избавление от bloat (излишнего груза) представляется скорее привлекательным. Зависимости "с долларом" кажутся всё же не слишком органичными (ну, не очень красивыми) для rpm-пакетов. [-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]
next reply other threads:[~2007-06-08 15:39 UTC|newest] Thread overview: 5+ messages / expand[flat|nested] mbox.gz Atom feed top 2007-06-08 15:39 Alexey Tourbin [this message] 2007-06-08 17:25 ` Igor Vlasenko 2007-06-08 23:51 ` Alexey Rusakov 2007-06-09 10:47 ` Igor Vlasenko 2007-06-09 10:54 ` Epiphanov Sergei
Reply instructions: You may reply publicly to this message via plain-text email using any one of the following methods: * Save the following mbox file, import it into your mail client, and reply-to-all from there: mbox Avoid top-posting and favor interleaved quoting: https://en.wikipedia.org/wiki/Posting_style#Interleaved_style * Reply using the --to, --cc, and --in-reply-to switches of git-send-email(1): git send-email \ --in-reply-to=20070608153903.GA7815@solemn.turbinal \ --to=at@altlinux.ru \ --cc=devel@lists.altlinux.org \ /path/to/YOUR_REPLY https://kernel.org/pub/software/scm/git/docs/git-send-email.html * If your mail client supports setting the In-Reply-To header via mailto: links, try the mailto: link
ALT Linux Team development discussions This inbox may be cloned and mirrored by anyone: git clone --mirror http://lore.altlinux.org/devel/0 devel/git/0.git # If you have public-inbox 1.1+ installed, you may # initialize and index your mirror using the following commands: public-inbox-init -V2 devel devel/ http://lore.altlinux.org/devel \ devel@altlinux.org devel@altlinux.ru devel@lists.altlinux.org devel@lists.altlinux.ru devel@linux.iplabs.ru mandrake-russian@linuxteam.iplabs.ru sisyphus@linuxteam.iplabs.ru public-inbox-index devel Example config snippet for mirrors. Newsgroup available over NNTP: nntp://lore.altlinux.org/org.altlinux.lists.devel AGPL code for this site: git clone https://public-inbox.org/public-inbox.git