Vyhledavani nezavisle na diakritice
Korinek, Jan
Jan.Korinek na compaq.com
Pátek Leden 21 14:44:05 CET 2000
> -----Original Message-----
> From: lisicky na datis.cdrail.cz [mailto:lisicky na datis.cdrail.cz]
> Sent: Friday, January 21, 2000 2:04 PM
> To: linux na linux.cz
> Subject: Re: Vyhledavani nezavisle na diakritice
>
>
> On 21 Jan 2000 11:10:26 +0100, Jiri.Mares na green.cz (Jiri Mares) wrote:
>
> >Priklad: sasek -> vyhleda i Šašek.
>
> >- velmi jednoducha moznost je oba retezy pred porovnanim zbavit
> >diakritiky (tj. pouzit nejakou konverzi).
> >
> >- pouzivate-li napr. nejaky sql server, pak muzete vsechny znaky s
> >diakritikou v hledanem retezy nahradit znakem '_', ktery reprezentuje
> >jakykoliv znak, a pak vyfiltrovat retezce, ktere se vybrali
> diky tomu,
> >ze '_' nahradi jakikoliv znak (ne pouze s diakritikou).
> >
> >otazkou je: ktera varianta je rychlejsi?
> >
>
> No uplně nejrychlejší (ale zabere víc místa) je uložit to v tabulce
> jak s diakritikou tak bez ní. Potom při hledání zbavit ten řetězec z
> webu háčků, čárek a velkých písmen a porovnávat to s tím jménem bez
> diakritiky (sasek) a vracet sloupec s diakritikou (Šašek).
Hmm, pokud to umoznuje server, tak je pomerne uspesne mit index podle
pocitaneho pole (prevkapive bez diakritiky) a vyhledavaci dotaz jet
optimalizovane podle tohoto indexu.
Mate rychlost, usporu mista, jedine co mit nebudete, je ceske trideni.
Honza
Další informace o konferenci Linux