From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: x-sender: anatol@vb3397.spb.edu x-receiver: community@altlinux.ru Date: Fri, 27 May 2005 02:05:50 +0400 From: "Anatol B. Bazjukin" X-Mailer: The Bat! (v3.5) Professional Organization: IRH X-Priority: 3 (Normal) Message-ID: <1207395159.20050527020550@vb3397.spb.edu> To: spider Subject: =?koi8-r?Q?Re=3A_=5BComm=5D_=F0=D2=C5=C4=CC=CF=D6=C5=CE=C9=C5=3A_=F4=C5?= =?koi8-r?Q?=CD=C1=D4=C9=DE=C5=D3=CB=C9=CA_=CB=CC=C1=D3=D3=C9=C6=C9=CB=C1?= =?koi8-r?Q?=D4=CF=D2_=D7_=D0=CF=CC=C5_=3C=F4=C5=CD=C1=3E?= In-Reply-To: <42960F2D.1050805@lsi.bas-net.by> References: <42960F2D.1050805@lsi.bas-net.by> MIME-Version: 1.0 Content-Type: text/plain; charset=koi8-r Content-Transfer-Encoding: 8bit Content-Transfer-Encoding: 8bit X-BeenThere: community@altlinux.ru X-Mailman-Version: 2.1.5 Precedence: list Reply-To: community@altlinux.ru List-Id: Mailing list for ALT Linux users List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Thu, 26 May 2005 22:07:15 -0000 Archived-At: List-Archive: List-Post: Hello spider, Thursday, May 26, 2005, 10:02:21 PM, you wrote: s> Предложение: построить классификатор тематики и указывать s> сайн класса в сабже. Например, s> [mmedia]Не работает xmms:-( s> [devel]А где лежит qmake s> и т.п. К сожалению, это пересекающиеся множества, если не по Subject, то по Text точно. Я в одном из тредов приводил частотный анализ слов в Subject для [Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. 8607 реже 10 раз. Низкое качество классификации связано с отсутствием минимальной стандартизации вопросов в Subject. Ну что за тема √ ⌠1001 вопрос от новичка■(но в тексте может быть вполне разумные вопросы). Предложения: √ один вопрос √ один тред - в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и паразитные слова. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо. Раскладывание тредов по папочкам очень увлекательное занятие, но опыт показывает, что проще свалить все в одну и выполнить search(google - ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 минут в самом тяжелом случае. И недаром в offtopic'е разгорелось соревнование фирм в создании систем локального поиска. -- Best regards, Anatol