Spolehlivost virtualniho HW
Jaroslav Lukesh
lukesh na seznam.cz
Pátek Březen 23 13:57:47 CET 2012
V průběhu kdy došlo k závadnému chování změna nebyla. Prostě jsem
předevčírem v noci musel kontrolu na IP na vývojové aplikaci zrušit a dneska
(od včera nepravidelně, dnes pravidelně) se totéž objevilo na plnící
aplikaci. K žádným změnám infrastruktury -2 dny nedošlo, IP stále stejné a
jsou tak i vidět. Prostě najednou to nešlo.
při ls knihovna na disku byla, ale dokud jsem ji nepřejmenoval a nenahrál
někam znova (binárně stejnou ale pro jistotu z instalačního balíčku), udělal
symlink, až pak to začlo jet. Máte pravdu, že na tom centosu při konfiguraci
a instalaci někdy mi to dělalo i to, že občas něco šlo a za nějakou dobu už
zase ne a naopak. Poškození jiných dat - ano to se mi vlastně taky stalo,
úplně podivně nakopnutá stromová databáze, asi před čtvrt rokem, byly tam
nuly na místě kde měla být hlavička objektu, zatímco dřív (na vmwaru) jsem
se setkal pouze s nekonzistencí podle časového razítka (vmwaru šmajdají
hodiny, v xenu ne). To bylo překvápko když jsem nemohl zjistit ID vadného
objektu.
Tehdy před 10 lety jsem dál nezkoumal co všecko je v háji, pustil jsem tam
memtest a ten do půl hodiny vylítl s chybou, tak to bylo jasné.
Zkusím z xenové konzoly start/stop, co to udělá, sice mě za to nebudou mít
rádi, ale koukám že nechat to vyhnívat dál by vedlo k nějaké další
destrukci. Má na to právo, dřív byl reboot každý týden (do 10-14 dnů
spolehlivě došla paměť + ještě swap přidaný ze souboru) a podařilo se mě to
dostat do stavu, že paměť už pozorovatelně neubývá, tak jsem se kochal jak
to už konečně šlape.
----- Původní zpráva -----
Od: "Pavel Kankovsky" <peak na argo.troja.mff.cuni.cz>
On Fri, 23 Mar 2012, Jaroslav Lukesh wrote:
> Představte si kus kódu, který dlouhou dobu funguje, ale najednou
> z ničeho nic, nikde žádná změna, fungovat přestane a vy nevíte proč.
Žádná změna? To jako že to ve virtuálním stroji stejného typu běželo už od
začátku?
> Přesně takto se chová linux na vadném HW kdy třeba na ls zahlásí že
> soubor ls neexistuje.
To bych si dovolil tvrdit, že není úplně typický projev vadného hardwaru.
Spíš dost atypický. Stát se to samozřejmě může, pokud se data v paměti
nebo na disku šikovně poškodí, ale moc pravděpodobné to není. A pokud
k tomu dochází, tak by to neměl být jediný projev, mělo by to mizet a zase
se objevovat (jako se data různě kešují), mělo by docházet k poškození
jiných dat...
> Toto ale není jediný případ, podivnosti se děly už při instalaci, takže
> celý server je prošpikovaný různými symlinky na knihovny na jiném místě
> a skripty, které ho udržují funkční, protože některé knihovny na disku
> jakoby vůbec neviděl (disk je samozřejmě virtuální).
Co tím chcete říct, že knihovny nejsou vidět, dokud na ně nevyrobíte
symlink odjinud?
Tak to bych opravdu nehledal chybu v hardwaru (třeba i virtualizovaném),
protože pro přístup přes symlink musí fungovat *současně* nalezení a čtení
symlinku i nalezení a čtení cílového souboru, což je víc, než je
požadováno při přímém přístupu.
Pokud to chcete vyřešit, tak bych doporučil vzít jeden případ, kdy se
stane něco divného, ke kterému dochází dostatečně často (nejlépe
deterministicky na vyžádání) a zkoumat ho systematicky krok po kroku (kód
programu, kód knihovny, jádro, ovladač...) a hledat, proč se tam dějí
špatné věci.
Další informace o konferenci Linux