From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <vt@altlinux.org>
Date: Thu, 27 Dec 2018 09:18:52 +0300
From: Vitaly Chikunov <vt@altlinux.org>
To: oss-gost-crypto@lists.altlinux.org
Message-ID: <20181227061852.4hdhmdfbrckvi5fn@sole.flsd.net>
MIME-Version: 1.0
Content-Type: text/plain; charset=koi8-r
Content-Disposition: inline
Content-Transfer-Encoding: 8bit
User-Agent: NeoMutt/20171215-106-ac61c7
Subject: [oss-gost-crypto] =?koi8-r?b?5+/z9CAzNC4xMCDJIENyeXB0b0FQSSAoRllJ?=
 =?koi8-r?b?IHByb2dyZXNzIHVwZGF0ZSAyKQ==?=
X-BeenThere: oss-gost-crypto@lists.altlinux.org
X-Mailman-Version: 2.1.12
Precedence: list
Reply-To: Open-source aspects of GOST Cryptography
 <oss-gost-crypto@lists.altlinux.org>
List-Id: Open-source aspects of GOST Cryptography
 <oss-gost-crypto.lists.altlinux.org>
List-Unsubscribe: <https://lists.altlinux.org/mailman/options/oss-gost-crypto>, 
 <mailto:oss-gost-crypto-request@lists.altlinux.org?subject=unsubscribe>
List-Archive: <http://lists.altlinux.org/pipermail/oss-gost-crypto>
List-Post: <mailto:oss-gost-crypto@lists.altlinux.org>
List-Help: <mailto:oss-gost-crypto-request@lists.altlinux.org?subject=help>
List-Subscribe: <https://lists.altlinux.org/mailman/listinfo/oss-gost-crypto>, 
 <mailto:oss-gost-crypto-request@lists.altlinux.org?subject=subscribe>
X-List-Received-Date: Thu, 27 Dec 2018 06:18:53 -0000
Archived-At: <http://lore.altlinux.org/oss-gost-crypto/20181227061852.4hdhmdfbrckvi5fn@sole.flsd.net/>
List-Archive: <http://lore.altlinux.org/oss-gost-crypto/>

On Sun, Dec 16, 2018 at 02:39:01AM +0300, Vitaly Chikunov wrote:
> Я посчитал статистику точнее (на одном ядре Xeon E5630 2.53GHz):
> 
>   кривая: 100 проверок / время = проверок в секунду
> 
>   gost2012_256-A: 100 / 0.462106 = 216.4
>   gost2012_256-B: 100 / 6.567137 =  15.2
>   gost2012_512-A: 100 / 3.159222 =  31.6
>   gost2012_512-B: 100 / 50.422690 =  1.98
> 
> Как уже говорил, gost2012_256-B можно сделать по скорости как
> gost2012_256-A, а gost2012_512-B как gost2012_512-A.

i) Добавил такие оптимизации: 1) пофиксил разложенеи по модулю для
кривых "B" (стали значительно быстрее, хоть и не на 100% так же как для
А); 2) замена в умножении (mul_64_64) четырех умножений u64 на одну
операцию с unsigned __int128; 3) сделал отдельную версию умножения
маленького числа на очень большое для использования в разложении по
модулю для специальных простых чисел (которые в кривых "A" и "B", но не
в "C"); 4) финальная операция проверки подписи сделана через Shamir's
trick, что сэкономило одно уможение скаляра на точку. Последние три
оптимизации каждая дают ускорение примерно в полтора-два раза. Так что
получился следующий бенчмарк:

  gost2012_256-A  925.73734979911 (verify/s)
  gost2012_256-B  743.48889599333
  gost2012_512-A  199.76707159452
  gost2012_512-B  172.92092844704

Думаю, на этом пока остановиться, так как стало более менее приемлемо.
Если кто-то захочет оптимизировать дальше, то welcome. Для сравнения
скорость gost-engine на этом же железе:

  gost2012_256 A: sign: 865.5/s, verify: 1085.6/s
  gost2012_256 B: sign: 891.5/s, verify: 1105.7/s
  gost2012_256 C: sign: 907.4/s, verify: 1096.2/s
  gost2012_512 A: sign: 231.0/s, verify: 324.2/s
  gost2012_512 B: sign: 223.9/s, verify: 336.9/s.

ii) Кривая gost2012_256-C благодаря Shamir's trick стала вычисляться,
так как пропал X=0. Но все равно она осталась очень медленной из-за
того, что разложение по модулю для нее не оптимизировано. Всё таки я
хочу отложить её до лучших времен. И так в ядре всего две NIST кривые, а
ГОСТовых уже может быть четыре (а всего стандартизовано семь).

Как обычно, черновая рабочая версия тут

  https://github.com/vt-alt/linux/tree/ecrdsa

ps. Herbert Xu сегодня послал pull request с новым crypto со стрибогом
Линусу.