Spolehlivost virtualniho HW

Tomas Vondra tv na fuzzy.cz
Pátek Březen 23 10:55:10 CET 2012


On 23 Březen 2012, 10:35, Jaroslav Lukesh wrote:
> Dobrý den,
>
> mám v práci problémy s virtuálním hw a už dřív jsem tak různě útržkovitě
> zaznamenal, že problémy prostě jsou, například s databázemi.

Problémy s databázemi na virtuálním HW jsou většinou povahy "I/O sucks"
tj. víc strojů se tahá o I/O které je často ještě nějak replikované a
tudíž pomalé. Nepamatuji že bych někdy měl problém s pády kvůli vadnému
HW.

> Představte si kus kódu, který dlouhou dobu funguje, ale najednou z ničeho
> nic, nikde žádná změna, fungovat přestane a vy nevíte proč. Přesně takto
> se
> chová linux na vadném HW kdy třeba na ls zahlásí že soubor ls neexistuje.
> A
> tak se mi chová server u nás ve Xenu (to s tím ls je historická zkušenost
> před cca 10 lety na vadném hw, kde NTčka ale fungovaly, v tom xenu to dělá
> mnohem rafinovanější špeky).

No, pokud se to projevovalo jako poškozený filesystém tak to mohlo mít
dost divoké důsledky, to věřím.

> Zde konkrétně -2 dny zpět se mi stalo, že kontrola na vyjmenované IP
> přestala jen na některé IP fungovat, přitom server tu IP kterou vidí, vidí
> správně. Toto ale není jediný případ, podivnosti se děly už při instalaci,
> takže celý server je prošpikovaný různými symlinky na knihovny na jiném
> místě a skripty, které ho udržují funkční, protože některé knihovny na
> disku
> jakoby vůbec neviděl (disk je samozřejmě virtuální).

Co znamená "kontrola na IP"? Ping?

Co je to za distribuci? Pokud se podivnosti děly už při instalaci tak je
celkem sebevražda provozovat na tom cokoliv kritického. Máte k dispozici
pouze HW a všechno ostatní (OS, administraci) si řešíte sám, nebo můžete
mít systém včetně OS a starat se pouze o aplikaci?

> Mám tedy prosbu, mohli byste prosím uvést nějaké zdokumentované
> zkušenosti,
> nebo odkazy na problémy s vadným virtualizovaným hw? Kolegové co to mají
> na
> starosti dělají mrtvého brouka že jim a všem našim zákazníkům to funguje
> bez
> problémů a za blbce jsem já. Potřeboval bych spíš nějaké zdroje, které na
> ty
> managory platí za bernou minci. Fyzický stroj nedostanu (to už mi dali
> vědět
> že přece nebudu zabírat místo v racku), ale aspoň aby toto věděli, protože
> tyhle problémy se mi citelně projevují například i na výši platu.

Těžko radit. Netuším na jakém fyzickém hw to provozují, jaký tam mají
monitoring a diagnostiku, jak je to nastavené - obecně mám ale zkušenost
že když mi správci HW něco tvrdí tak mají pravdu. Samozřejmě je možné že
tam je problém je natolik atypický že ho diagnostika neodhalí.

Pokud je ten systém (OS) v jejich správě tak připravte nějaký testcase
který problém demonstruje (čím méně kódu tím lépe) a pošlete jim to.

T.



Další informace o konferenci Linux