Boolesche Logik steckt auch in Google

Dieser Blogartikel beschäftigt sich wie mein letzter Artikel mit booleschen Operatoren. Das ist kein Zufall, denn ich finde, gemessen an der Macht und Präsenz von booleschen Operatoren in der Welt der suchbasierten Onlineprodukte, gibt es erstaunlich wenig Material, das Suchoperatoren auf einfache Weise erklärt.

Jeder von uns hat eine intuitive Vorstellung davon, was passiert, wenn er bei Google nach Angela Merkel sucht: Es sollen natürlich interessante Infos über die Kanzlerin geliefert werden.

Google weiß aber nichts von einer Kanzlerin, sondern sieht seinen Suchauftrag darin, die relevantesten Webdokumente für die Suchwörter Angela und Merkel zu finden.

Hinter den Kulissen wird aus der Sucheingabe Angela Merkel der boolesche Ausdruck Angela AND Merkel gemacht. Allerdings handelt es sich bei Google nicht um ein striktes AND, sondern eine abgeschwächte Variante hiervon, sozusagen eine ungefähre Verknüpfung.

Man kann die Suchlogik aber auch ganz gezielt mithilfe der Google Suchoperatoren modifizieren. Eine Hilfestellung zur Erstellung komplexer boolescher Queries liefert die Erweiterte Suche von Google.

Nach der Lektüre dieses Artikel sollte jeder die Frage "Warum liefert die Googlesuche nach Angela OR Merkel deutlich mehr Suchergebnisse als die Suche nach Angela Merkel?" beantworten können.

Wie aber sind diese booleschen Operatoren zu verstehen?

Im Artikel Boolesche Queries bei Brandwatch für die Brandwatch Blogparade habe ich dargestellt, dass man sich seine eigene Suchintention klarmachen muss, um gute boolesche Queries zu formulieren. Dazu habe ich boolesche Ausdrücke in natürlichsprachliche Ausdrücke übersetzt.

Das folgende Beispiel ist eine vereinfachte Version des finalen booleschen Ausdrucks in der Brandwatch Anfragesprache:

(jaguar NEAR/15 (problem OR defect)) AND NOT (animal OR carnivore)

Ich hatte das übersetzt in:

Es sollen Vorkommen von Jaguar in engem Zusammenhang mit Problemen (defect oder problem) gefunden werden. Aber es darf gleichzeitig nicht von Tieren die Rede sein.

Der Suchauftrag, den Brandwatch oder Google aus diesem booleschen Ausdruck ableiten, lässt sich folgendermaßen beschreiben:

Ein Dokument wird nur in das Suchergebnis übernommen, wenn dieses Dokument alle der folgenden Bedingungen erfüllt:
 
1. Der Term Jaguar kommt im Dokument an Position X vor.
 
2. Für das Dokument aus 1. gilt: Im Abstand von maximal 15 Wörtern vor oder nach Position X wird ein Synonym für Problem gefunden, nämlich mindestens einer der beiden Terme
 
a) defect oder
b) problem.
 
3. Im Dokument darf nirgends einer der Terme gefunden werden, die das Tier Jaguar bezeichnen könnten, sei es
 
a) animal oder
b) carnivore

Der Google Suchvorgang ist transparent

Suchbasierte Anwendungen wie Social Media Monitoring Tools oder Suchmaschinen operieren auf einem Suchindex, der die potenziellen Ergebnisdokumente enthält.

Es werden für eine bestimmte Sucheingabe nur die Dokumente gefunden, die alle Einzelbedingungen erfüllen, die aus der Eingabe abgeleitet werden. Die Eingabe besteht aus Termen, die mit logischen Suchoperatoren verknüpft werden.

Erst wenn die Dokumente identifiziert und zurückgeliefert worden sind, die alle Bedingungen der Suchanweisung erfüllen, greift der berüchtigte Rankingalgorithmus, der die Ergebnisdokumente filtert und sortiert.

Der eigentliche Suchvorgang ist bei Google also weitgehend transparent, die Magie steckt im Nachgang.

Boole besser begreifen durch Bäume

Wenn man die einzelnen Operatoren und das Grundprinzip einmal verstanden hat, ist der Weg zum Verständnis der Klammerung nicht mehr weit.

Diese Behauptung aus dem Brandwatch Artikel will ich an dieser Stelle beweisen. Dazu betrachten wir den Suchausdruck:

Obama AND Lob OR Kritik

Es gibt zwei Möglichkeiten diesen Ausdruck zu interpretieren:

Lesart A: Es werden nur Dokumente gefunden, in denen der Term Obama erwähnt wird und in denen zusätzlich mindestens einer der beiden Terme Lob oder Kritik gefunden werden?
 
Obama AND ( Lob OR Kritik )
Lesart B: Es werden nur Dokumente gefunden, in denen der Begriff Obama im Zusammenhang mit Lob vorkommt. Alternativ reicht das Vorkommen des Terms Kritik aus, damit ein Dokument gefunden wird.
 
( Obama AND Lob ) OR Kritik

Fehlen die strukturierenden Klammern, greifen in jeder Suchanfragesprache eigene Regeln, die die Lesart festlegen. In der ursprünglichen Version der booleschen Logik bindet AND stärker als OR.

Das bedeutet, es wird erst der Ausdruck, der durch AND verknüpft ist, ausgewertet und dann mit dem OR Ausdruck verknüpft. In diesem Fall ist das die weniger intuitive Variante B.

Die Strukturierung eines booleschen Ausdrucks lässt sich in einer Baumstruktur visualisieren (siehe Illustration).

Hausaufgaben

Das war es von mir, nun seid ihr dran mit folgenden Aufgaben:

  • Welcher Suchoperator bindet in Google stärker: AND oder OR? (Tipp: Einfach ausprobieren und Ergebnisse vergleichen)
  • Betrachte die finale Query. Warum brauchen wir hier Klammern? Was wäre die Lesart ohne Klammern? Wie sähe der entsprechende Logikbaum aus (Tipp: NOT bindet am stärksten)?

Das Kommentarfeld wartet auf eure Lösungen OR Fragen OR Anmerkungen OR Kritik OR Themenwünsche!

Share: