Schritte zum durchsuchbaren Dokument

Texte und andere Information in natürlicher Sprache müssen aufbereitet werden, bevor sie effektiv durchsucht werden können. Wir liefern fertige Produkte oder Bausteine für bestehende Architekturen, die die notwendigen Schritte erledigen.

1

Format-Parsing

Aus Dokumenten in einem an der Anzeige orientierten Format wie HTML oder auch Word-Docs werden strukturierte Texte. Dabei müssen z.B. Navigationsstrukturen und Werbeelemente aus Webseiten entfernt werden.

2

Text-Analyse

Welche Abschnitte sind wichtiger als andere? Wo enden Sätze? Was sind die wesentlichen Wörter im Text? Hier fallen wichtige Entscheidungen für die Relevanz später bei der Suche.

3

Sprachliche Anreicherung

Wörter werden auf ihre Grundform reduziert, zusammengesetzte Wörter in ihre Bestandteile zerlegt.

4

Informationsextraktion

Personen, Orte, Firmen, ISBN-Nummern: In Dokumenten kommen viele wesentliche "Entitäten" vor. Sie müssen extrahiert und für die Suche spezifisch aufbereitet werden.

5

Verknüpfung

Ob im eigenen Datenbestand oder im Web, es finden sich immer Querverweise, Verknüpfungspunkte, Ergänzungen und Erklärungen zu einem Dokument. Diese werden mit dem Dokument verbunden, damit der Nutzer am Ende alle wesentlichen Fakten in wenigen Klicks erreichen kann.