uložení a agregace údajů v PostgreSQL

Pondělí Březen 18 15:31:36 CET 2002

On Mon, Mar 18, 2002 at 02:59:16PM +0100, Havel Zdeněk wrote:
> Díky,
> 
> takovou reakci jsem potřeboval.

 :-)

> Optimální by bylo, jestliže by se data dala vkládat v intervalu 1 minuty. Z
> dat se vykreslovat grafy, sledovat jejich trendy, případně další statistická
> vyhodnocení.

 Pak si nejsem jist chcete-li ty data opravdu mazat. Todle zacina byt
 vice datovy sklad nez klasicka relacni DB. U datovych skladu a
 multidimezinalnich DB (nebo jak se tomu nadava) vam moc nepomohu
 (nevi nekdo nejake pekne URL pro studium DW? :-). Kazdopadne bude asi 
 dobre se rozhodnout co chcete sledovat.

 Moc jste neokomentoval to, ze by klient mel byt inteligentni a
 vkladat data v davkach (pomoci COPY, insert je vyrazne pomalejsi) a 
 nebo je vkladat uz agregovane.

> Device je identifikace zařízení, v tomto případě jeho doménové jméno, type,
> je druh údaje, oboje lze uložit do číselníků.

 V pripade, ze zustanete u klasicke relacni DB tak bych ty cisleniky
 urcite udelal. Pozor, ale pak na pripadne zmeny ciselniku a historicke 
 udaje (pokud je budete udrzovat ukladat).

> Indexaci jsem chtěl použít pro zrychlení hledání extrémů, nebo souhrnů.
> Dotazy typu "select device,timestamp from 5min_table where value > 20". Za
> předpokladu že bude mít zrušení indexu vliv na zrychlení insert operací, je
> není nutné indexaci provádět (četnost dotazů bude několik jednotek denně).

 Slo o to, ze ta data budete hlavne vkladat a predpokladam, ze vetsi
 odezva u tech selectu by vam nevadila zatimco u toho vkladani ano.
 Ale mozna je to prehnane a vlozeni do toho indexu zase tam moc
 narocne neni (nevim).

 Ja bych ty agregace delal mene casto. Je blbost delat to kazdych pet
 minut kdyz vysledek nikoho nezajima.

> Dotazy které budou převládat budou typu "select value form 1min_table where
> device=xxx AND type=xxx AND time BETWEEN xxx AND xxx".
> 
> Tabulka může být jedna, je otázkou, jestli se při dalším růstu množství
> údajů nezačne vzhledem k jejich množství výrazně zpomalovat oproti rozdělení
> do více tabulek. Většinou stejně budu hledat data pouze jednoho druhu, tj.
> 1min, 5min ... Těch 60 zařízení je začátek, časem to může být 100 nebo 200
> zařízení s průměrem 4 údajů na zařízení.

 Promyslete si co presne budete z tech dat dolovat, bude-li mozne je
 mazat (nebo je muzete presouvat do nejake tabulky s historickymi
 udaji).

        Karel

-- 
 Karel Zak  <zakkr na zf.jcu.cz>
 http://home.zf.jcu.cz/~zakkr/

 C, PostgreSQL, PHP, WWW, http://docs.linux.cz, http://mape.jcu.cz