Vyhledavani nezavisle na diakritice

Korinek, Jan Jan.Korinek na compaq.com
Pátek Leden 21 14:44:05 CET 2000


> -----Original Message-----
> From: lisicky na datis.cdrail.cz [mailto:lisicky na datis.cdrail.cz]
> Sent: Friday, January 21, 2000 2:04 PM
> To: linux na linux.cz
> Subject: Re: Vyhledavani nezavisle na diakritice
> 
> 
> On 21 Jan 2000 11:10:26 +0100, Jiri.Mares na green.cz (Jiri Mares) wrote:
> 
> >Priklad: sasek -> vyhleda i Šašek.
> 
> >- velmi jednoducha moznost je oba retezy pred porovnanim zbavit
> >diakritiky (tj. pouzit nejakou konverzi). 
> >
> >- pouzivate-li napr. nejaky sql server, pak muzete vsechny znaky s
> >diakritikou v hledanem retezy nahradit znakem '_', ktery reprezentuje
> >jakykoliv znak, a pak vyfiltrovat retezce, ktere se vybrali 
> diky tomu,
> >ze '_' nahradi jakikoliv znak (ne pouze s diakritikou). 
> >
> >otazkou je: ktera varianta je rychlejsi?
> >
> 
> No uplně nejrychlejší (ale zabere víc místa) je uložit to v tabulce
> jak s diakritikou tak bez ní. Potom při hledání zbavit ten řetězec z
> webu háčků, čárek a velkých písmen a porovnávat to s tím jménem bez
> diakritiky (sasek) a vracet sloupec s diakritikou (Šašek).
Hmm, pokud to umoznuje server, tak je pomerne uspesne mit index podle
pocitaneho pole (prevkapive bez diakritiky) a vyhledavaci dotaz jet
optimalizovane podle tohoto indexu.
Mate rychlost, usporu mista, jedine co mit nebudete, je ceske trideni.

Honza


Další informace o konferenci Linux