ALT Linux Sisyphus discussions
 help / color / mirror / Atom feed
* [sisyphus] течёт psql?
@ 2011-04-14  4:37 Дмитрий Дегтярев
  2011-04-14  4:46 ` REAL
                   ` (2 more replies)
  0 siblings, 3 replies; 7+ messages in thread
From: Дмитрий Дегтярев @ 2011-04-14  4:37 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

Добрый день!

Есть задача залить данные из файла некоего формата в субд.

С помощью awk формирую строки вида
select myprocedure(param1, param2, ..., paramn);

процедура раскидывает данные по таблицам

всего строк 8-9 миллионов в день нужно загонять в базу.

Если делать так
$ awk '{print ....}' | psql -U user -d db -h host.local
то через пару минут psql уже занял 1,5 ГБ ОЗУ и пришлось прервать, т.к. 
всё залезло в своп.

если сформировать сначала файл(довольно быстро, 2-3 минуты), а потом 
psql -U user -d db -h host.local -f file.sql
то занимает в ОЗУ всего 6Кб. Работает так минут 15, а затем начинает всё 
свопиться, смотрю память psql опять занял 1,5 Гб. Опять останавливаю.

Утечка в psql? Или в либе какой?

Как залить дамп размером 3Гб в базу?

система последний sisyphus

ЗЫ:
сейчас заливаю так
$ awk '{print ....}' | while read l; do
     echo $l | psql -U user -d db -h host.local
done;
это не реально долго из-за 8000000 лишних запусков psql, реконнектов к 
базе...


^ permalink raw reply	[flat|nested] 7+ messages in thread

* Re: [sisyphus] течёт psql?
  2011-04-14  4:37 [sisyphus] течёт psql? Дмитрий Дегтярев
@ 2011-04-14  4:46 ` REAL
  2011-04-14  4:50   ` Дмитрий Дегтярев
  2011-04-14  5:34 ` Eugene Prokopiev
  2011-04-14  6:16 ` Andrey Liakhovets
  2 siblings, 1 reply; 7+ messages in thread
From: REAL @ 2011-04-14  4:46 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

14.04.2011 11:37, Дмитрий Дегтярев пишет:
> всего строк 8-9 миллионов в день нужно загонять в базу.

А разбить на транзакции никак? А то это же жуть - одной транзакцией 
такие массивы гонять. Как крайний вариант, делать коммит после каждого 
инсерта. Понимаю, что так дольше, но с памятью проблемы должны 
исчезнуть. Вроде бы.

> это не реально долго из-за 8000000 лишних запусков psql, реконнектов к базе...

А нельзя ли сделать без реконнектов, т.е. один коннект, а транзакций 
много? Я в psql ни в зуб ногой, но вообще-то нормальные СУБД обязаны 
уметь такое.

-- 

REAL aka Евгений Ростовцев, программист ЦНИТ КемГУ


^ permalink raw reply	[flat|nested] 7+ messages in thread

* Re: [sisyphus] течёт psql?
  2011-04-14  4:46 ` REAL
@ 2011-04-14  4:50   ` Дмитрий Дегтярев
  2011-04-14  5:01     ` REAL
  0 siblings, 1 reply; 7+ messages in thread
From: Дмитрий Дегтярев @ 2011-04-14  4:50 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

14.04.2011 10:46, REAL пишет:
> 14.04.2011 11:37, Дмитрий Дегтярев пишет:
>> всего строк 8-9 миллионов в день нужно загонять в базу.
>
> А разбить на транзакции никак? А то это же жуть - одной транзакцией 
> такие массивы гонять. Как крайний вариант, делать коммит после каждого 
> инсерта. Понимаю, что так дольше, но с памятью проблемы должны 
> исчезнуть. Вроде бы.
>
В Postgres Хранимые процедуры транзакционны поэтому каждая строка есть 
отдельная транзакция.
>> это не реально долго из-за 8000000 лишних запусков psql, реконнектов 
>> к базе...
>
> А нельзя ли сделать без реконнектов, т.е. один коннект, а транзакций 
> много? Я в psql ни в зуб ногой, но вообще-то нормальные СУБД обязаны 
> уметь такое.
>
Так и делаю, но почему то съедает память. Да и клиенту какая разница 
транзакция, insert, select, update, create.. Его задача отдать команду 
серверу и забыть про неё.


^ permalink raw reply	[flat|nested] 7+ messages in thread

* Re: [sisyphus] течёт psql?
  2011-04-14  4:50   ` Дмитрий Дегтярев
@ 2011-04-14  5:01     ` REAL
  2011-04-14  5:44       ` Дмитрий Дегтярев
  0 siblings, 1 reply; 7+ messages in thread
From: REAL @ 2011-04-14  5:01 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

14.04.2011 11:50, Дмитрий Дегтярев пишет:
> В Postgres Хранимые процедуры транзакционны поэтому каждая строка есть
> отдельная транзакция.

Насколько я помню, это зависит от параметров соединения. По крайней 
мере, так в Oracle и DB2, так, по идее, вообще по стандарту, если не 
ошибаюсь. Если параметр autocommit установлен в false, то все 
процедуры идут одной транзакцией вплоть до commit, rollback или 
закрытия соединения.

>> А нельзя ли сделать без реконнектов, т.е. один коннект, а транзакций
>> много? Я в psql ни в зуб ногой, но вообще-то нормальные СУБД обязаны
>> уметь такое.
>>
> Так и делаю, но почему то съедает память.

Вот от этого и мои подозрения, что отключен autocommit. Или, как 
вариант, можно перед каждым инсертом поиграться со времем ожидания 
(должно быть что-то вроде аналога sleep в shell).

-- 

REAL aka Евгений Ростовцев, программист ЦНИТ КемГУ


^ permalink raw reply	[flat|nested] 7+ messages in thread

* Re: [sisyphus] течёт psql?
  2011-04-14  4:37 [sisyphus] течёт psql? Дмитрий Дегтярев
  2011-04-14  4:46 ` REAL
@ 2011-04-14  5:34 ` Eugene Prokopiev
  2011-04-14  6:16 ` Andrey Liakhovets
  2 siblings, 0 replies; 7+ messages in thread
From: Eugene Prokopiev @ 2011-04-14  5:34 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

> Как залить дамп размером 3Гб в базу?

Лучше заливать не дамп, а предварительно подготовленный текстовый файл
с помощью COPY

-- 
С уважением,
Прокопьев Евгений

^ permalink raw reply	[flat|nested] 7+ messages in thread

* Re: [sisyphus] течёт psql?
  2011-04-14  5:01     ` REAL
@ 2011-04-14  5:44       ` Дмитрий Дегтярев
  0 siblings, 0 replies; 7+ messages in thread
From: Дмитрий Дегтярев @ 2011-04-14  5:44 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussions

14.04.2011 11:01, REAL пишет:
> 14.04.2011 11:50, Дмитрий Дегтярев пишет:
>> В Postgres Хранимые процедуры транзакционны поэтому каждая строка есть
>> отдельная транзакция.
>
> Насколько я помню, это зависит от параметров соединения. По крайней 
> мере, так в Oracle и DB2, так, по идее, вообще по стандарту, если не 
> ошибаюсь. Если параметр autocommit установлен в false, то все 
> процедуры идут одной транзакцией вплоть до commit, rollback или 
> закрытия соединения.
>
все это влияет на работу сервера, а не клиента. проблема в клиенте.
>>> А нельзя ли сделать без реконнектов, т.е. один коннект, а транзакций
>>> много? Я в psql ни в зуб ногой, но вообще-то нормальные СУБД обязаны
>>> уметь такое.
>>>
>> Так и делаю, но почему то съедает память.
>
> Вот от этого и мои подозрения, что отключен autocommit. Или, как 
> вариант, можно перед каждым инсертом поиграться со времем ожидания 
> (должно быть что-то вроде аналога sleep в shell).
>
psql разбивает команды по ";" и отправляет по одной на сервер в случае 
если сервер готов принять очередную..я не думаю что psql будет брать с 
диска данные и ложить в память если сервер не принимает команды, т.к. не 
выполнил ещё предыдущую.


^ permalink raw reply	[flat|nested] 7+ messages in thread

* Re: [sisyphus] течёт psql?
  2011-04-14  4:37 [sisyphus] течёт psql? Дмитрий Дегтярев
  2011-04-14  4:46 ` REAL
  2011-04-14  5:34 ` Eugene Prokopiev
@ 2011-04-14  6:16 ` Andrey Liakhovets
  2 siblings, 0 replies; 7+ messages in thread
From: Andrey Liakhovets @ 2011-04-14  6:16 UTC (permalink / raw)
  To: sisyphus

On Thu, 14 Apr 2011 10:37:33 +0600 Дмитрий Дегтярев wrote:
 ...
>всего строк 8-9 миллионов в день нужно загонять в базу.
>
>Если делать так
>$ awk '{print ....}' | psql -U user -d db -h host.local
>то через пару минут psql уже занял 1,5 ГБ ОЗУ и пришлось прервать,
>т.к. всё залезло в своп.
>
>если сформировать сначала файл(довольно быстро, 2-3 минуты), а потом
>psql -U user -d db -h host.local -f file.sql
>то занимает в ОЗУ всего 6Кб. Работает так минут 15, а затем начинает
>всё свопиться, смотрю память psql опять занял 1,5 Гб.
...
>сейчас заливаю так
>$ awk '{print ....}' | while read l; do
>     echo $l | psql -U user -d db -h host.local
>done;
>это не реально долго из-за 8000000 лишних запусков psql, реконнектов к базе...

А если кусками, скажем, по 1000 строк?
(или на скольких там у вас psql ещё не свопится)

Андрей Ляховец


^ permalink raw reply	[flat|nested] 7+ messages in thread

end of thread, other threads:[~2011-04-14  6:16 UTC | newest]

Thread overview: 7+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2011-04-14  4:37 [sisyphus] течёт psql? Дмитрий Дегтярев
2011-04-14  4:46 ` REAL
2011-04-14  4:50   ` Дмитрий Дегтярев
2011-04-14  5:01     ` REAL
2011-04-14  5:44       ` Дмитрий Дегтярев
2011-04-14  5:34 ` Eugene Prokopiev
2011-04-14  6:16 ` Andrey Liakhovets

ALT Linux Sisyphus discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
		sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
	public-inbox-index sisyphus

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sisyphus


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git