ALT Linux Community general discussions
 help / color / mirror / Atom feed
From: Eugine Kosenko <eugine.kosenko@gmail.com>
To: ALT Linux Community general discussions <community@lists.altlinux.org>
Subject: [Comm] Как объединить значения для стандартных полей Recoll?
Date: Tue, 28 Jul 2015 16:25:54 +0300
Message-ID: <CAB_XSX3gtnmwi2ipQXJ7vgM8Q7aosZe10OYii3LQPs9mJoKM6w@mail.gmail.com> (raw)

Мне понадобилось добавить к стандартным полям Recoll значения, не
заданные в метаданных документа. Допустим, есть такой документ:

  <html>
    <head>
      <meta name="author" content="Kosenko" />
      <meta name="m:author" content="Maverik" />
      <title>An Example</title>
     </head>
    <body>
      Example
    </body>
  </html>

Здесь поле author является стандартным, а m:author ---
пользовательским. Чтобы задать это поле, в fields указывается:

  [prefixes]
  m:author=XYMA

  [stored]
  m:author=

Предположим также, что это результат обработки, например, pdf-файла,
исправлять который я не хочу или не могу. Мне нужно добавить значение
Constructor к полю author и значение Eugine к полю m:author. Для этого
в recoll.conf помещается объявление вида:

  [~/study/recoll/metadata/trial]
  metadatacmds = ; author = echo "Constructor"; m:author = echo "Eugine";

Логично ожидать, что теперь после индексации приведенного документа в
поле author будет записано «Kosenko - Constructor». а в поле m:author
--- значение «Maverik - Eugine». Однако оказывается, что поле
«m:author» приняло ожидаемое значение, а поле author --- нет. В нем
прописывается только внутреннее значение Kosenko, полученное в
результате обработки самого документа. Внешнее значение, заданное
командой metadatacmds, не добавляется.

Интересно, что если добавить в документ еще один метатэг, например, так:

  <meta name="author" content="Constructor" />

то это значение добавляется к полю, но без дефиса-разделителя:
«Kosenko Constructor». Это поведение одинаково как для стандартных,
так и для пользовательских полей. А вот если к полю m:author добавить
еще одно внешнее значение, скажем, так:

  [~/study/recoll/metadata/trial]
  metadatacmds = ; m:author = echo "Eugine"; m:author = echo "Creator";

то последнее значение в последовательности просто перекрывает все предыдущие.

Пока что я спасаюсь тем, что использую только поле m:author
(собственно, по описанной причине и потребовалось еще одно поле для
автора), а поле author объявляю его синонимом. Наоборот не получается
--- при индексации синоним m:author вначале приводится к каноническому
имени author, а затем все происходит так же, как и раньше. В
результате все значения объединяются как надо, но: во-первых, поле
author в таком случае вообще не заполняется, а во-вторых,
искусственное имя для стандартного атрибута --- это некрасиво.

Непонятно, в чем тут принципиальное отличие в значениях стандартных и
пользовательских полей, и можно ли его преодолеть, не ковыряясь в
исходниках?

Инспекция хранилища Xapian показала, что и в самом деле ключ
=Aconstructor= не сохраняется, а поле =author= не включает в себя
внешнее значение.  Похоже, проблема возникает именно на уровне Recoll
при формировании данных для сохранения.

Проблема наблюдается как в версии 1.20, так и в версии 1.21.

             reply	other threads:[~2015-07-28 13:25 UTC|newest]

Thread overview: 6+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2015-07-28 13:25 Eugine Kosenko [this message]
2015-07-28 16:29 ` Michael Shigorin
2015-08-02 13:34   ` Eugine Kosenko
2015-08-02 21:07     ` Michael Shigorin
2015-08-03 13:29       ` Eugine Kosenko
2015-08-03 16:51         ` Michael Shigorin

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=CAB_XSX3gtnmwi2ipQXJ7vgM8Q7aosZe10OYii3LQPs9mJoKM6w@mail.gmail.com \
    --to=eugine.kosenko@gmail.com \
    --cc=community@lists.altlinux.org \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git