From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: Date: Sat, 13 Nov 2004 18:16:01 +0300 From: =?koi8-r?B?5MXOydMg883J0s7P1w==?= To: community@altlinux.ru Subject: Re: [Comm] =?koi8-r?B?4dfUz9LB09DP2s7B18HO?= =?koi8-r?B?ycUgy8/EydLP18vJPw==?= Message-ID: <20041113151601.GG28736@mithraen_ws> Mail-Followup-To: =?koi8-r?B?5MXOydMg883J0s7P1w==?= , community@altlinux.ru References: <418FD594.3000403@ramendik.ru> <200411130130.56596.cray_@neural.ru> Mime-Version: 1.0 Content-Type: text/plain; charset=koi8-r Content-Disposition: inline Content-Transfer-Encoding: 8bit In-Reply-To: <200411130130.56596.cray_@neural.ru> X-BeenThere: community@altlinux.ru X-Mailman-Version: 2.1.5 Precedence: list Reply-To: community@altlinux.ru List-Id: Mailing list for ALT Linux users List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Sat, 13 Nov 2004 15:15:49 -0000 Archived-At: List-Archive: List-Post: On Sat, Nov 13, 2004 at 01:30:56AM +0300, Andrey Orlov wrote: AO> Посмотрите пакет RequestDecoder, это питоновский продукт к Zope который по статистике перекодировал текст в запросах AO> в правильную кодировку. Основан на анализе ~триграмм. Как показала практика - если текст больше десяти симворлов, AO> он не ошибается. Даже в случае двойной неверной перекодировки. Использовался одно время на реальном сервере. AO> Пусть слово Zope вас не пугает, сам декодер полностью отчуждаем и там даже одельная тулза с командной строкой есть. О! Спасибо большое, обязательно посмотрю. Хотя 10 мало :) Без двойных перекодировки у меня и по парам символов нормально обрабатывал. Кстати я понял, почему на пайтоне он не жручий к памяти получился. В C для этого, если не морочить себе голову, я просто использовал массивы. Которые получались очень разряжёными массивами. А потом по такому массиву ещё и fullscan делать приходилось, со всеми соответствующими последствиями. А на реальном тексте это нафиг не надо. -- С уважением, Денис http://freesource.info