Spolehlivost virtualniho HW

Jaroslav Lukesh lukesh na seznam.cz
Pátek Březen 23 13:57:47 CET 2012


V průběhu kdy došlo k závadnému chování změna nebyla. Prostě jsem 
předevčírem v noci musel kontrolu na IP na vývojové aplikaci zrušit a dneska 
(od včera nepravidelně, dnes pravidelně) se totéž objevilo na plnící 
aplikaci. K žádným změnám infrastruktury -2 dny nedošlo, IP stále stejné a 
jsou tak i vidět. Prostě najednou to nešlo.

při ls knihovna na disku byla, ale dokud jsem ji nepřejmenoval a nenahrál 
někam znova (binárně stejnou ale pro jistotu z instalačního balíčku), udělal 
symlink, až pak to začlo jet. Máte pravdu, že na tom centosu při konfiguraci 
a instalaci někdy mi to dělalo i to, že občas něco šlo a za nějakou dobu už 
zase ne a naopak. Poškození jiných dat - ano to se mi vlastně taky stalo, 
úplně podivně nakopnutá stromová databáze, asi před čtvrt rokem, byly tam 
nuly na místě kde měla být hlavička objektu, zatímco dřív (na vmwaru) jsem 
se setkal pouze s nekonzistencí podle časového razítka (vmwaru šmajdají 
hodiny, v xenu ne). To bylo překvápko když jsem nemohl zjistit ID vadného 
objektu.

Tehdy před 10 lety jsem dál nezkoumal co všecko je v háji, pustil jsem tam 
memtest a ten do půl hodiny vylítl s chybou, tak to bylo jasné.

Zkusím z xenové konzoly start/stop, co to udělá, sice mě za to nebudou mít 
rádi, ale koukám že nechat to vyhnívat dál by vedlo k nějaké další 
destrukci. Má na to právo, dřív byl reboot každý týden (do 10-14 dnů 
spolehlivě došla paměť + ještě swap přidaný ze souboru) a podařilo se mě to 
dostat do stavu, že paměť už pozorovatelně neubývá, tak jsem se kochal jak 
to už konečně šlape.


----- Původní zpráva ----- 
Od: "Pavel Kankovsky" <peak na argo.troja.mff.cuni.cz>


On Fri, 23 Mar 2012, Jaroslav Lukesh wrote:

> Představte si kus kódu, který dlouhou dobu funguje, ale najednou
> z ničeho nic, nikde žádná změna, fungovat přestane a vy nevíte proč.

Žádná změna? To jako že to ve virtuálním stroji stejného typu běželo už od
začátku?

> Přesně takto se chová linux na vadném HW kdy třeba na ls zahlásí že
> soubor ls neexistuje.

To bych si dovolil tvrdit, že není úplně typický projev vadného hardwaru.
Spíš dost atypický. Stát se to samozřejmě může, pokud se data v paměti
nebo na disku šikovně poškodí, ale moc pravděpodobné to není. A pokud
k tomu dochází, tak by to neměl být jediný projev, mělo by to mizet a zase
se objevovat (jako se data různě kešují), mělo by docházet k poškození
jiných dat...

> Toto ale není jediný případ, podivnosti se děly už při instalaci, takže
> celý server je prošpikovaný různými symlinky na knihovny na jiném místě
> a skripty, které ho udržují funkční, protože některé knihovny na disku
> jakoby vůbec neviděl (disk je samozřejmě virtuální).

Co tím chcete říct, že knihovny nejsou vidět, dokud na ně nevyrobíte
symlink odjinud?

Tak to bych opravdu nehledal chybu v hardwaru (třeba i virtualizovaném),
protože pro přístup přes symlink musí fungovat *současně* nalezení a čtení
symlinku i nalezení a čtení cílového souboru, což je víc, než je
požadováno při přímém přístupu.

Pokud to chcete vyřešit, tak bych doporučil vzít jeden případ, kdy se
stane něco divného, ke kterému dochází dostatečně často (nejlépe
deterministicky na vyžádání) a zkoumat ho systematicky krok po kroku (kód
programu, kód knihovny, jádro, ovladač...) a hledat, proč se tam dějí
špatné věci.



Další informace o konferenci Linux