On Wed, Feb 16, 2011 at 12:21:21AM +0300, Денис Черносов wrote: > Истина где-то между, но тысячелетия практики обработки данных > показывают, что везде, где это возможно - лучше идти по пути > максимального упрощения модели, требующей соотв. минимального > контекста. И формализации бизнес-процессов. Плюс механизм расширения > функционала под каждую конкретную задачу. ППКС. > А запихивать всё подряд в одну кучу - это вообще не решение, если нет > ответа на вопрос "как эти данные будут использоваться". Всё, что я > прочитал в ваших постах - это, извините, "плюшкинство". Пусть лежит на > всякий случай разный хлам в огромной куче. google -> GTD. Есть отдельный тип хранилища -- "архив". Он нужен, потому что к сожалению не все процессы могут быть специфицированы. И тогда нужно некоторое пространства хранения данных которые _маловероятно_ что понадобятся. Естественно "поиск в архивных данных" это совершенно отдельный процесс. И оперативные данные от архивных должны быть четко отделены (вплоть до того что архивные данные вообще неразумно хранить локально, а писать на диски и класть в сейф, или отправлять в шифрованном виде на Amazon S3). > Формат и объем метаданных - это отражение модели и контекста. > Индексирование метаданных = выделение контекста. Контекст выделяется > для облегчения работы с данными, но когда индексы становятся > сравнимыми по объему с исходными данными - нафиг они не нужны! В > какой-то момент нужно останавливаться и доставать таблетки от > жадности. Иногда индексы нужны даже если их объем существенно превышает объем данных. Суть индекса в получении _быстрого_ ответа. И потому требования к нему зависят исключительно от используемых процессов, и могут быть никак не связаны с размером данных. > В народ идут только достаточно простые НЕуниверсальные контексты, > привязанные к конкретным задачам. См. GTD. > Google waves в народ не пошёл, хотя мегамогучая фиговина, стирающая > грани между большинством протоколов и хранилищ. А электронная почта > никак не убивается, несмотря на все её очевидные недостатки. Google waves не пошел потому что неочевиден. Гугль не смогли создать простые и эффективные usecases. А мегамогучая фиговина нужна только IT'шникам, чтобы было с чем поиграть. > Видеохостинг развивается достаточно независимо от календаря. И т.д. и > т.п. Специализация оказывается дешевле универсализации. А в ходе это специализации рождаются универсальные технологии (memcached в web -- самый известный пример). Ну или тот же nginx :) > Впрочем, повторно вспоминаю akonadi + strigi. Поставьте в индексацию > системные файлы и они будут ими индексироваться. Вот только "зачем"? > Что вы надеетесь чудесным образом наковырять в служебных файлах? Если > у вас есть ответ на этот вопрос - автоматизация уже не проблема... а > задача. Причём, типовая. Вот формулирование нужных процессов, а также удобный инструмент автоматизации их (на уровне "пользователь может сконфигурять сам без команды крутых спецов с суммарной з/п >50k$/месяц") и есть проблема. -- С уважением, Денис http://mithraen.ru/ ----------------------------------------------------------------------------