Linux als SOHO-Server
für Linux- und Windows-Clients |
Kapitel:
|
Das Programm 'ht://dig' ist ein komplettes Index- und Suchprogramm für begrenzte Bereiche z.B. für das Intranet. Es kann dazu verwendet werden, um für den eigenen Web-Server eine Volltextsuche anzubieten. Dabei wird die Suche nicht nur in html- oder txt-Dateien, sondern auch in Word- oder PDF-Dateien unterstützt. Das Prinzip basiert auf einer Indizierung des gesamten Datenbestandes, in dem nachher ein bestimmter Begriff durch einem Fuzzy-Algorithmus bestimmt wird. Das Programm 'ht://dig' wurde von der 'San Diego State University' entwickelt und ist kostenlos (unter Einhaltung der GNU General Public Lizense) erhältlich. Installation/KonfigurationIn der Debian-Distribution kann das Programm-Paket mit: 'apt-get install htdig' installiert werden, weitere Abhängigkeiten sollten automatisch aufgelöst werden. Zusätzlich empfiehlt es sich, dass dazugehörige Paket: 'htdig-doc' gleich mit zu installieren. In der Dokumentation sind wichtige Hinweise über Aufbau, Wirkungsweise, Installation und Konfiguration der Suchmaschine erhalten. Natürlich kann das Programm auch direkt von der Homepage: 'www.htdig.org' herunter geladen, kompiliert und installiert werden. Bei dieser Variante der Installation sind die entsprechenden Empfehlungen (Readme) zu beachten. Weiterhin ist zu beachten, dass auf dem Server genügend freier Plattenspeicherplatz für die indizierte Datenbank zur Verfügung stehen sollte. Je nach Größe des Webs sollten so ca. 250MB kalkuliert werden. Die Konfigurationen zu 'ht//dig' befindet sich nach der Installation im Verzeichnis: 'etc/htdig'. Dabei ist die Hauptkonfigurationsdatei: 'htdig.conf' eigentlich schon sehr gut vorbereitet. Die wichtigste Konfiguration ist der start_url-Eintrag. Hier sollte der Name des Apache-Webs stehen, ab der die Suchmaschine arbeiten soll:
Alle anderen Konfigurationen können erstmal so übernommen werden. Bevor die Suchmaschine genutzt werden kann, ist eine Indizierung notwendig. Hiefür ist das Script: '/usr/bin/rundig' zu starten. Es werden eine Reihe von Datenbanken für die Stichwortsuche im Verzeichnis: '/var/lib/htdig/' erzeugt. Dieser Vorgang kann bei vielen WEB-Seiten und langsamen Rechnern zum Teil mehrere Stunden dauern. Wie schon erwähnt sollte auf der Festpatte ausreichend freier Platz vorhanden sein. Erst wenn das Script: 'rundig' beendet ist, kann mit einen Browser die Suchseite unter der URL: 'http://<localhost>/search.html' aufgerufen werden und eine erste Suche gestartet werden:
Die Beispiel-Suchseite: 'search.html' wurde bei der Installation von 'ht//dig' ins Verzeichnis: '/var/www' abgelegt. Die Darstellung der Suchergebnisse erfolgt dann mit einer CGI-Ausgabe. Anmerkungen Damit die deutsche Sprache bei 'ht//dig' besser unterstützt
wird, sollten deutsche Wörterbuchdateien benutzen werden. Auf der Homepage von 'ht//dig' befinden
sich solche vorgefertigte Wortlisten für die deutsche Sprache. Die
gepackte Datei: 'GermanWordlist.zip' beinhaltet Dateien für deutsche Endungen und Algorithmen. Zur
Installation sollte ein Verzeichnis: '/etc/htdig/german'
angelegt werden in dem die gepackten Dateien: 'bad_words',
'german.0' und 'german.aff'
aus 'GermanWordlist.zip' hineinkopiert werden.
Die deutschen Datenbanken 'root2word.db' und 'word2root.db' für Endungen kann mit dem Kommando:
erzeugt werden.
Weitere Infos
letzte Änderung: 07. März 2006 |
Copyright © 2004 Norbert Eusterholz |