MnoGoSearch a textove soubory s ceskymi znaky?
Dan Bar
Daniel.Bar na seznam.cz
Pátek Říjen 31 11:43:57 CET 2003
Pavel Steinbauer wrote:
> Dobry den vsem,
>
> podarilo se nekomu nakonfigurovat MnoGoSearch s cestinou?
jasne - jeden cesky bezi treba na www.skinet.cz
>
> Mne to indexuje ceská slova správne, pokud neobsahuji ? (s^) a ? (z^). Tyto
> znaky MnoGoSearch bere jako mezeru a vytvori dve nova slova.
>
> Priznavam, ze kodovani textovych souboru je CP1250, ale web server Apache je
> normalne posle web browseru spravne.
Mozna bude problem tady:
" ...
Document charset detection
--------------------------
indexer detects document character set in this order:
1) "Content-type: text/html; charset=xxx"
2) <META NAME="Content" CONTENT="text/html; charset=xxx">
3) Defaults from "Charset" indexer.conf command (user preferences)
... "
Jestli se jedna o ciste textove soubory, pak z nich mnogosearch zadne
info o kodovani nevytahne a musi se spolehat na Charset co mu posle
Apache v hlavicce http odpovedi (ten se da nastavit v Apache config -
DefaultCharset tusim). Pokud to nemate v Apache nastavene, pak
mnogoserach nevi v jakem kodovani text je.
Zkuste pouzit "Charset = cp1250" parametr pred inkriminovany Server
radek v config souboru - viz man indexer.conf
mozna by fungovalo i tohle (parser.txt):
Mime: text/plain "text/plain; charset=iso-8859-2" "enca + parametry"
tedy predradit internimu text/plain parseru jeste enca program
("Extremely Naive Charset Analyzer" - dle obsahu vstupu rozpozna charset
a na pozadani jej zkonvertuje do zadaneho kodovani). V htdig to jde,
jestli je to mozne i u mnogosearch mevim.
>
> Mam Linux RedHat 9.
>
> Zdravi
>
taky
> Pavel Steinbauer
Dan
---
P.S. Take jsem hledal nejaky serach engine pro Intranet a po prozkoumani
mnogoearch jsem nakonec skoncil u htdig. Prijde mi lepsi (porovnavam se
stable mnogosearch) pokud nutne neporebujete unicode support (i kdyz
jsem to s pomoci enca vyresil take). Dival jsem se i na aspseek, ten mi
prisel velice podobny mnogoseach.
Jinak po dokonceni konf. htdig jsem jeste narazil na cesky Shrelock.
Vypada dobre, see http://www.ucw.cz/holmes/ a nebo komercni aplikaci
www.morfeo.cz
----------------
dostatecne obsazny doc je v doc adresari - charset.txt
podstatne casti:
" ... indexer recodes all documents to the character set specified
in the "LocalCharset" indexer.conf command. Recoding only inside
character set group is available. This is currently implemented
for ... "Central Europe" ..."
takze -> "LocalCharset = iso8859-2"
"...
Character sets aliases
----------------------
Web servers can return the same charset in different notation.
For example, iso-8859-2, iso8859-2, latin2 are the same charsets.
There is support for charsets names aliases which search engine
can understand:
1. Aliases for all ISO charsets (using iso-8859-2 as an example):
iso-8859-2, iso8859-2, iso8859.2, iso-8859.2,
iso_8859-2:1988, iso_8859-2, iso_8859.2
2. Aliases for all MS charsets (using windows-1250 as an example):
windows-1250, cp-1250, cp1250, windows1250, x-cp1250
..."
Další informace o konferenci Linux