From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: From: Andrey Orlov To: community@altlinux.ru Subject: Re: [Comm] =?koi8-r?b?4dfUz9LB09DP2s7B18HOycU=?= =?koi8-r?b?IMvPxMnSz9fLyT8=?= Date: Sat, 13 Nov 2004 01:30:56 +0300 User-Agent: KMail/1.7.1 References: <418FD594.3000403@ramendik.ru> In-Reply-To: <418FD594.3000403@ramendik.ru> MIME-Version: 1.0 Content-Type: text/plain; charset="koi8-r" Content-Transfer-Encoding: 8bit Content-Disposition: inline Message-Id: <200411130130.56596.cray_@neural.ru> X-BeenThere: community@altlinux.ru X-Mailman-Version: 2.1.5 Precedence: list Reply-To: community@altlinux.ru List-Id: Mailing list for ALT Linux users List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Fri, 12 Nov 2004 22:22:56 -0000 Archived-At: List-Archive: List-Post: On Monday 08 November 2004 23:22, Mikhail Ramendik wrote: > Хотелось бы завести скрипт, который по статистике распознаёт кодировку > русского письма, а затем ставит ему правильный charset в header. Посмотрите пакет RequestDecoder, это питоновский продукт к Zope который по статистике перекодировал текст в запросах в правильную кодировку. Основан на анализе ~триграмм. Как показала практика - если текст больше десяти симворлов, он не ошибается. Даже в случае двойной неверной перекодировки. Использовался одно время на реальном сервере. Пусть слово Zope вас не пугает, сам декодер полностью отчуждаем и там даже одельная тулза с командной строкой есть. -- WthBstRgrds -- Андрей Орлов -- --- http: www.neural.ru, mail: cray@neural.ru, jid: cray@altlinux.org --- ----------------------------------------