MnoGoSearch a textove soubory s ceskymi znaky?

Pátek Říjen 31 11:43:57 CET 2003

Pavel Steinbauer wrote:
> Dobry den vsem,
> 
> podarilo se nekomu nakonfigurovat MnoGoSearch s cestinou?

jasne - jeden cesky bezi treba na www.skinet.cz

> 
> Mne to indexuje ceská slova správne, pokud neobsahuji ? (s^) a ? (z^). Tyto
> znaky MnoGoSearch bere jako mezeru a vytvori dve nova slova.
> 

> Priznavam, ze kodovani textovych souboru je CP1250, ale web server Apache je
> normalne posle web browseru spravne.

Mozna bude problem tady:

" ...
Document charset detection
--------------------------
indexer detects document character set in this order:

1) "Content-type: text/html; charset=xxx"
2) <META NAME="Content" CONTENT="text/html; charset=xxx">
3) Defaults from "Charset" indexer.conf command (user preferences)

... "

Jestli se jedna o ciste textove soubory, pak z nich mnogosearch zadne 
info o kodovani nevytahne a musi se spolehat na Charset co mu posle 
Apache v hlavicce http odpovedi (ten se da nastavit v Apache config - 
DefaultCharset tusim). Pokud to nemate v Apache nastavene, pak 
mnogoserach nevi v jakem kodovani text je.

Zkuste pouzit "Charset = cp1250" parametr pred inkriminovany Server 
radek v config souboru - viz man indexer.conf

mozna by fungovalo i tohle (parser.txt):

Mime: text/plain "text/plain; charset=iso-8859-2" "enca + parametry"

tedy predradit internimu text/plain parseru jeste enca program 
("Extremely Naive Charset Analyzer" - dle obsahu vstupu rozpozna charset 
a na pozadani jej zkonvertuje do zadaneho kodovani). V htdig to jde, 
jestli je to mozne i u mnogosearch mevim.

> 
> Mam Linux RedHat 9.
> 
> Zdravi
> 
taky

> Pavel Steinbauer

Dan

---

P.S. Take jsem hledal nejaky serach engine pro Intranet a po prozkoumani 
mnogoearch jsem nakonec skoncil u htdig. Prijde mi lepsi (porovnavam se 
stable mnogosearch) pokud nutne neporebujete unicode support (i kdyz 
jsem to s pomoci enca vyresil take). Dival jsem se i na aspseek, ten mi 
prisel velice podobny mnogoseach.
Jinak po dokonceni konf. htdig jsem jeste narazil na cesky Shrelock. 
Vypada dobre, see http://www.ucw.cz/holmes/ a nebo komercni aplikaci 
www.morfeo.cz

----------------

dostatecne obsazny doc je v doc adresari - charset.txt

podstatne casti:

" ... indexer recodes all documents to the character set specified
in the "LocalCharset" indexer.conf command. Recoding only inside
character set group is available. This is currently implemented
for ... "Central Europe" ..."

takze -> "LocalCharset = iso8859-2"

"...
Character sets aliases
----------------------
Web servers can return the same charset in different notation.
For example, iso-8859-2, iso8859-2, latin2 are the same charsets.
There is support for charsets names aliases which search engine
can understand:

1. Aliases for all ISO charsets (using iso-8859-2 as an example):

	iso-8859-2, iso8859-2, iso8859.2, iso-8859.2,
	iso_8859-2:1988, iso_8859-2, iso_8859.2

2. Aliases for all MS charsets (using windows-1250 as an example):

	windows-1250, cp-1250, cp1250, windows1250, x-cp1250
..."