Die auf Elasticsearch basierende Suchmaschine Cirrus ermöglicht, Textstücke im Wiki zu suchen und zu finden und die Treffer nach vielerlei Kriterien einzugrenzen.[1]

Verhalten

Bearbeiten

Es gibt drei Möglichkeiten, um eine Suche zu spezifizieren:

  1. Suchbox auf jeder Seite
    • Zeigt eine Vorschlagsliste mit der Eingabe jedes Zeichens.
    • Wenn keine volle Übereinstimmung zwischen der Eingabe und einer existierenden Seite gefunden wird, wird eine Trefferliste gezeigt.
    • Wenn eine Tilde ~ vorangestellt wird, dann wird auf die Trefferliste geleitet und nicht auf eine vorhandene Seite, die exakt diesen Namen hätte.
  2. Formular zur Volltextsuche
    • Spezialseite mit einem Eingabefeld.
    • Auch erreichbar über das Lupen-Symbol in der Suchbox sowie die Position „enthält“ in einer dortigen Vorschlagsliste.
    • Führt zu einer Trefferliste.
  3. Über URL-Parameter.
    • Sie ermöglichen, eine Anfrage dauerhaft zu speichern und das Suchformular vorzubelegen.
    • Es gibt spezifische Parameter für das Erscheinungsbild der Spezialseite.

In allen drei Formen ist die spezifische Syntax möglich.

Auswertung

Bearbeiten
  • Es wird in Seitentitel, Seitentext sowie Weiterleitungen gesucht.
  • Standardmäßig wird als Seitentext der (sichtbar) dargestellte Text ausgewertet.
    • Das ist anders als zuvor unter Lucene, wo der Quelltext der Seiten durchsucht wurde.
    • Der durchsuchte Text besteht aus Wörtern und Leerzeichen, wobei die Wörter aus Buchstaben und Ziffern gebildet werden.
    • Der dargestellte Seitentext wird gebildet nach Auflösung aller Vorlagen aus allen sichtbaren Zeichen ohne Formatierungen wie „fett“, „kursiv“ oder „verlinkt“, wobei die zusammenhängenden Zeichenketten als ein Wort betrachtet werden.
    • Mittels des Parameters insource: kann alternativ der Quelltext der einzelnen Seite durchsucht werden.
    • Der „sichtbare Text“ meint tatsächlich den generierten Seiteninhalt. Teile davon können für das menschliche Auge ausgeblendet worden sein, gehören jedoch weiterhin zum durchsuchten Seitentext.
  • Im sichtbaren Seitentext wird eine gefundene Textsequenz in Fettschrift hervorgehoben; bei anderen Suchformen wird der Beginn des sichtbaren Textes gezeigt.

Namensraum

Bearbeiten

Aktualisierung

Bearbeiten
  • Innerhalb von oft einer Minute oder zumindest weniger als einer Stunde wird der Suchindex des Projekts aktualisiert; abhängig von der momentanen Serverlast.
  • Damit spiegeln sich Veränderungen an einer Seite kurzfristig in den Suchergebnissen wider.
  • Unter Lucene erfolgte die Aktualisierung einmal täglich in den Nachtstunden europäischer Zeit.

Sortierung der Trefferliste

Bearbeiten
  • Treffer im Seitentitel werden höher bewertet als im Seitentext.
  • Treffer im wirklichen Seitentitel werden höher bewertet als im Namen von Weiterleitungsseiten oder Abschnitten.
  • Fundstellen in einem identifizierten Einleitungsabschnitt (vor der ersten Überschrift) werden höher bewertet als der allgemeine Text und bewirken eine höhere Position in der Trefferliste.
  • Teile der Seite können als „nebensächlich“ klassifiziert werden.
  • Standardmäßig wird die Bedeutung des Treffers zu 60 % nach dem Alter der letzten Bearbeitung eingestuft, und zwar exponentiell ansteigend. Jüngste Bearbeitungen erscheinen weit oben.
    • Über prefer-recent: lässt sich das für diese Suche abweichend festlegen.
  • Buchstäbliche Übereinstimmung geht vor Ähnlichkeit.
  • Weitere Kriterien können die Verlinkungsanzahl oder die Häufigkeit der Artikelaufrufe sein.

Die maximal erlaubte Länge des Suchausdrucks beträgt zurzeit (2024) 300 Zeichen.

Suchmuster

Bearbeiten

Ein oder mehrere Wörter oder Teile davon bilden das Suchmuster.

  • Zu einem Wort gehören Buchstaben aller Alphabete und Ziffern, nicht aber Sonderzeichen.
  • Die allgemeine Syntax der Eingabe lautet:
    Suchmuster Parameterliste
  • Nach dem Suchmuster wird im Seitentitel und im Seitentext gesucht.
  • Wenn über ein Schlüsselwort wie intitle: gesucht wird, dann könnte das Suchmuster auch entfallen.
  • Ein Wort besteht aus Buchstaben und Ziffern.
  • Nach Sonderzeichen lässt sich im dargestellten Text nicht suchen.
  • Es werden zunächst ganze Wörter gesucht.
  • Regelmäßige und für die deutsche Sprache typische grammatikalische Formen wie Plural und Beugung werden ebenfalls gesucht. Das heißt: Eine Suche nach „Auto“ findet auch Seiten, auf denen „Autos“ steht, eine Suche nach „Autos“ keine Seiten, auf denen „Auto“ steht.
  • Groß- und Kleinschreibung wird ignoriert.
  • Diakritische Zeichen werden in einigen Fällen ignoriert; das heißt, „à“ wird zu „a“, außerdem „ß“ zu „ss“, aber „é“ und „e“ werden unterschieden.[3]
  • Zu den „Buchstaben“ zählt alles, was im Unicode-Standard als Buchstabe (letter) klassifiziert ist; analog für Ziffern (digit).

Wortteile

Bearbeiten

Ein Sternchen * zählt als Wildcard, steht also für null bis beliebig viele Zeichen an dieser Stelle. Beispiele:

  • Anfang* findet alle Artikel, in denen ein mit dieser Zeichenkette beginnendes Wort vorkommt; oder direkt ein Wort anfang.
  • *ende findet alle Artikel, in denen ein mit dieser Zeichenkette endendes Wort vorkommt; oder direkt das Wort ende. Zurzeit aus Performance-Gründen außer Betrieb.[4]
  • A*fang* findet alle Artikel, in denen ein Wort mit „A“ beginnt und (danach) „fang“ im Wort hat (Anfang, Abfangjäger, …).

Genauigkeit der Übereinstimmung

Bearbeiten

Eine Tilde ~ nach dem Wort spezifiziert, dass die Übereinstimmung etwas ungenauer sein darf.

  • Beispiel:
    • ungefair findet nichts.
    • ungefair~ findet allerlei von „ungefähr“ bis „unfair“.

Eine der Tilde nachgestellte Ziffer justiert den Grad der Ungenauigkeit; die Wirkung ist je nach Wort schwer vorherzusagen.

  • Der Standardwert ist 1.
  • Eine ~0 fordert exakte Übereinstimmung des auf die Grundbuchstaben reduzierten Wortes, ~9 ist laxer.

Ausschluss eines Wortes

Bearbeiten

Ein Minuszeichen - vor dem Wort bedeutet, dass dieses Wort nicht vorkommen darf.

  • Beispiel: Haus -Dach findet alle Artikel, in denen „Haus“ enthalten ist, nicht aber „Dach“.

Das Ausrufezeichen ! ist eine alternative Notation der Negation.

Wortgruppe und exakte Übereinstimmung

Bearbeiten

Wenn ein oder mehrere Wörter in Anführungszeichen " gesetzt werden, dann werden sie als buchstabengenaue Folge gesucht.

  • Beispiel:
    • "schweizer käse" hat etwa 57 Treffer.
    • schweizer käse hat über 1100 Treffer.

Bei mehreren Wörtern wird gefordert, dass alle Wörter vorkommen; die Reihenfolge des Auftretens ist ohne Bedeutung.

Wird hinter eine mit Anführungszeichen umschlossenen Wortgruppe der Ungenauigkeitsoperator ~ geschrieben, so werden die Wörter in dieser Reihenfolge erwartet, aber es dürfen einige wenige zusätzliche Wörter im Text dazwischen auftreten.

  • Beispiel:
    • "schweizer käse"~ hat etwa 63 Treffer.
    • "schweizer käse"~9 hat etwa 77 Treffer.

Und-Verknüpfung

Bearbeiten

Das in Großbuchstaben geschriebene Schlüsselwort AND (englisch ‚und‘) kann verwendet werden, um Seiten mit beiden verknüpften Suchbegriffen anzuzeigen.

Das ist das Standardverhalten, kann aber ggf. noch einmal bekräftigt werden, um explizit nahe „weiche“ Ergebnisse auszuschließen.

Statt AND können auch zwei Et-Zeichen verwendet werden: &&

Oder-Verknüpfung

Bearbeiten

Durch das in Großbuchstaben geschriebene Schlüsselwort OR (englisch ‚oder‘) werden die Seiten gezeigt, die das eine oder andere Wort enthalten.

  • Beispiel: schweizer OR käse hat fast 150.000 Treffer.

Statt OR könnten auch zwei Pipe-Symbole verwendet werden: ||

Namensraum-Name

Bearbeiten

Beginnt das Suchmuster mit dem Namen eines Namensraums und Doppelpunkt, dann wird nur dieser Namensraum durchsucht.

  • Beispiel: Datei:Amsterdam findet ausschließlich Mediendateien, bei denen das Wort „Amsterdam“ vorkommt.

Siehe auch: Parameter all:

Parameter

Bearbeiten

Auf das Suchmuster kann eine Liste von Parametern folgen, mit denen die Ergebnisse weiter eingegrenzt (oder auf andere Namensräume und den Quelltext gelenkt) werden können.

  • Die Syntax ist jeweils:
    (minus)Parametername:Parameterwert
  • Dem Parameternamen kann ein ASCII-Minuszeichen - vorangestellt werden. Dann wird die Bedeutung negiert; es geschieht das Gegenteil, also etwa „enthält nicht“.
  • Ein textlicher Parameterwert muss in Anführungszeichen " gesetzt werden, wenn er aus mehreren „Wörtern“ besteht, damit die eindeutige Interpretation gewährleistet ist. Andernfalls würden lose Einzelwörter zum Suchmuster hinzugefügt werden.
  • Zwischen Doppelpunkt und Parameterwert dürfen keine Leerzeichen stehen.
  • Die Elemente der Parameterliste werden durch Leerzeichen getrennt.

Zur ersten Ausfilterung können auch einschränkende Parameter-Bedingungen vorangestellt werden (ausgenommen prefix:), wodurch die allgemeine Textsuche auf diese Seitentexte begrenzt wird und damit die benötigte Gesamtzeit gesenkt wird.

  • Parameter-Bedingungen und Text-Suchmuster können beliebig kombiniert werden und werden im Normalfall von links nach rechts abgearbeitet.

Übersicht

Bearbeiten

all: alle Namensräume

Bearbeiten

Das Schlüsselwort all: bewirkt, dass nicht nur Artikel, sondern Seiten aller Namensräume gefunden werden, wenn es dem Suchmuster vorangestellt wird, also als allererste Spezifikation auftritt.

Es werden dadurch ggf. auch die direkten oder indirekten Vorgaben durch die URL-Parameter außer Kraft gesetzt.

boost-templates: Seiteneinbindungen bevorzugen

Bearbeiten

Diese fortgeschrittene Option kann dazu genutzt werden, Trefferseiten in der Liste höher zu bewerten, falls sie eine oder mehrere bestimmte Vorlagen oder eingebundene Seiten enthalten.

Die Syntax lautet:

boost-templates:"Seitenname|Prozentzahl%"

  • Der Seitenname muss vollständig sein, also insbesondere mit Vorlage: beginnen.
  • Die Prozentzahl muss ganzzahlig sein und sollte sinnvollerweise deutlich über 100 % liegen.
  • Beispiel: Wien boost-templates:"Vorlage:Lesenswert|500%" findet insbesondere solche Artikel, die das Wort „Wien“ enthalten und mittels {{Lesenswert}} gekennzeichnet sind.

contentmodel: Seiteninhaltsmodell

Bearbeiten

Normale Seiten haben das Inhaltsmodell wikitext.

Seiten, deren Inhalt ausschließlich in einer bestimmten Programmier- oder Datensprache notiert ist, und von der dies auch bekannt wäre, können gefiltert werden.

Die Syntax lautet:

contentmodel:model

contentmodel:css filtert Cascading Style Sheets.

deepcategory: / deepcat: Kategorientief- und Schnittmengensuche

Bearbeiten

2018 eingeführte Optionen zum Suchen nach Seiten, die in einer bestimmten Kategorie einschließlich Unterkategorien enthalten sind. Die Optionen ermöglichen auch Schnittmengensuche. Die Tiefe der Suche ist zunächst auf 5 Ebenen und die Anzahl der zu durchsuchenden Kategorien auf 256 begrenzt.

Achtung: Im Herbst 2015 wurde dieselbe Funktionalität bereits als deepcat: eingeführt, wofür bisher ein zusätzliches Werkzeug aktiviert werden musste. Ab Ende Januar 2020 wird dieses nicht mehr unterstützt. deepcat: und deepcategory: nutzen dann nur noch das neue System.

Zur Suche direkt in einer einzelnen Kategorie siehe incategory:.

haslicense: Lizenz (Commons)

Bearbeiten

Auf Wikimedia Commons können Mediendateien gesucht werden, die nachstehenden Lizenzkategorien entsprechen:

  • haslicense:cc-by (Creative Commons, Namensnennung)
  • haslicense:cc-by-sa (Creative Commons, Namensnennung und Share-Alike)
  • haslicense:unrestricted (Public Domain)

hastemplate: Seiteneinbindung/Vorlage

Bearbeiten

Diese Option schränkt die Suchergebnisse auf solche Seiten ein, die eine bestimmte Vorlage enthalten oder gerade nicht enthalten.

Das betrifft nicht nur die im Quelltext der Seite sichtbaren Vorlagen, sondern schließt auch alle mittelbar eingebundenen Vorlagen ein.

Die Syntax lautet:

hastemplate:"Vorlagenname"

  • Anders als bei boost-templates ist hier für Vorlagenname nicht der vollständige Seitenname erforderlich, sondern die Notation richtet sich nach der Einbindungssyntax:
    • Ohne ein Präfix wird eine Vorlage gesucht.
    • Artikelnamen sind durch einen vorangestellten Doppelpunkt : zu kennzeichnen.
  • Der Name der Vorlage muss in " eingeschlossen werden, wenn er Leerzeichen enthält oder mit " beginnt.
    • Das ließe sich vermeiden, indem Leerzeichen durch Unterstreichungsstriche _ ersetzt werden.
  • Eingeschlossene " und \ müssen mit \ maskiert werden.
  • Beispiel: Datei: -hastemplate:Information findet alle Mediendateien, bei denen die Vorlage:Information nicht vorhanden ist. Die Negation rührt von dem Minuszeichen vor hastemplate: her. Allerdings ist bei einer Datei, die tatsächlich auf Wikimedia Commons residiert, niemals irgendeine Vorlage eingebunden.

Eine Erweiterung der Syntax erlaubt, nach Seiten zu suchen, die eine von mehreren Vorlagen einbinden, also mehrere Namen mittels „Oder“ verknüpfen, indem die Bezeichner durch ein Pipe-Symbol | verkettet werden:

hastemplate:Meine_Vorlage_1|Meine_Vorlage_2

haswbstatement: Wikidata-Aussagen

Bearbeiten

Derzeit nur in Wikidata wäre es möglich, nach Items zu suchen, bei denen etwa eine Property P eine Qualität Q hätte.

incategory: Direkt in der Kategorie

Bearbeiten

Diese Option schränkt die Suchergebnisse auf solche Seiten ein, die in genau einer bestimmten Kategorie enthalten oder gerade nicht enthalten sind.

Die Syntax lautet:

incategory:"Kategorientitel"

  • Dem Kategorientitel darf das Namensraum-Präfix Kategorie: nicht vorangestellt werden.
  • Der Kategorientitel muss in " eingeschlossen werden, wenn er Leerzeichen enthält. Das ließe sich vermeiden, indem Leerzeichen durch Unterstreichungsstriche _ ersetzt werden.
  • Der Kategorientitel kann in der Suchabfrage nicht trunkiert werden.
  • Beispiel: incategory:Wikipedia:Lückenhaft -incategory:Wikipedia:Löschkandidat findet alle Artikel, die in der Kategorie:Wikipedia:Lückenhaft eingeordnet wurden, aber nicht zur Löschung anstehen.

Bei mehreren Kategorien wird die Schnittmenge genommen; es sei denn, die einzelnen Angaben sind durch OR verknüpft.

Zur Suche auch in Unterkategorien und komplexeren Schnittmengen siehe deepcat:.

inlanguage: Menschliche Sprache

Bearbeiten

In der deutschsprachigen Wikipedia ist diese Filterung nicht sinnvoll; alle Seiten sind deutsch.

In mehr- und vielsprachigen Wikis, insbesondere den zentralen Meta, MediaWiki und Commons sowie translatewiki:, können entsprechend gekennzeichnete Seiten herausgefiltert werden:
inlanguage:de

Die Syntax lautet:

inlanguage:lang – siehe MediaWiki/Sprachen

insource: Quelltext durchsuchen

Bearbeiten

Mit dieser Option lässt sich der Quelltext statt des dargestellten Seitentextes durchsuchen. Der Quelltext liegt nicht in Form einer Folge von Einzelwörtern vor, sondern enthält noch die Sonderzeichen, jedoch Umlaute ebenfalls nur normalisiert. Damit lassen sich auch URL und Vorlagenparameter finden.

Die Syntax hat zwei Varianten:

  1. insource:Wort
    • Beispiel: insource:toolserver findet Artikel.
  2. insource:/RegExp/
    • RegExp ist ein regulärer Ausdruck. Es funktioniert jedoch nur eine beschränkte Auswahl an Zeichen.
    • Eine Variante wäre insource:/RegExp/i zum Ignorieren der Groß- und Kleinschreibung (was eine stärkere Serverbelastung nach sich zieht).
    • Aus Performance-Gründen wird die Zahl gleichzeitig auf dem Server verarbeiteter Abfragen dieser Art limitiert.
    • Beispiel:
      • insource:/bestimmter Suchbegriff/ findet Seiten, bei denen die Sequenz aus dem Quellcode Zeichen für Zeichen übereinstimmt. (Voraussetzung: darin sind keine Steuerzeichen für reguläre Ausdrücke enthalten; etwa .*+?/()[]{}<>^\)

Mehr unter insource.

Die Option ist nur bei Seiten mit „normalem“ Inhalt anzuwenden; also bei solchen mit dem Content Model wikitext. Bei anderen, also wenn ausschließlich Computercode als Lua, CSS oder JavaScript enthalten ist, muss direkt gesucht werden.

intitle: Im Seitentitel enthalten

Bearbeiten

Während das Suchmuster sowohl auf den dargestellten Text wie auch auf den Seitentitel angewendet wird, spezifiziert intitle: einen Suchausdruck, der nur auf den Seitentitel bezogen ist. Dabei würde automatisch der Wortanfang jedes Suchworts herangezogen (im Herbst 2014 wird dies [noch] nicht unterstützt und vollständige Wörter sind erforderlich).

Die Syntax lautet:

  1. intitle:Wort
  2. intitle:"Wortgruppe"
    • Beispiel: intitle:"Haus Begriffsklärung" findet entsprechende Artikel.
  3. intitle:/RegExp/ findet anhand regulärer Ausdrücke (sinngemäß wie mit insource:) (seit Anfang April 2018)
    • Beispiel: intitle:/.*\/.*/ findet Artikel, deren Name einen Schrägstrich enthält.

Ein anderes Werkzeug, das auch das Ende von Seitennamen und Teile der Seitennamen berücksichtigen kann, ist listpages.

linksto: Verlinkt auf

Bearbeiten

Diese Option findet Seiten, die auf eine bestimmte Zielseite verlinken.

Dadurch gibt es erweiterte Möglichkeiten zu den „Links auf diese Seite“ – also nur solche, die Schlüsselwörter enthalten oder in Kategorien enthalten sind.

Die Syntax lautet:

linksto:"Seitenname"

  • Der Seitenname muss in " eingeschlossen werden, wenn er Leerzeichen enthält. Das ließe sich vermeiden, indem Leerzeichen durch Unterstreichungsstriche _ ersetzt werden.
  • Beispiel: Hilfe:linksto:Hilfe:Suche incategory:Hilfe:Spezialseite findet entsprechend verlinkte Hilfeseiten in der Kategorie:Hilfe:Spezialseite.

local: Suche auf Heimwiki beschränken

Bearbeiten

Diese Option beschränkt die Suche auf das Heimwiki (hier: de.wikipedia.org). Nützlich etwa bei der Suche nach lokal vorhandenen Dateien (Ausklammern der Treffer von Wikimedia Commons).

Die Syntax lautet:

local:suchbegriff

In Kombination mit einem Namensraumpräfix Beschränkung auf Dateien:

file:local:suchbegriff

morelike: Ähnlich anderen Seiten

Bearbeiten

morelike:Artikel A|Artikel B findet Artikel, deren Inhalt den angegebenen Seiten am ähnlichsten ist.[5]

neartitle: / nearcoord: Geo-Suche

Bearbeiten

Hier können Artikel mit geografischen Koordinaten in einem bestimmten Gebiet gefunden werden.

Die Syntax lautet:

neartitle:"Artikel"
  • Beispiel: neartitle:"Bad Birnbach" findet Seiten bei Bad Birnbach.

Es kann ein Suchradius angegeben werden:

neartitle:"Suchradius,Artikel"
  • Beispiel: neartitle:"5km,Bad Birnbach" findet Seiten im Umkreis von 5 km um Bad Birnbach.

Alternativ zu einem Artikel ist die Angabe von Dezimalkoordinaten möglich:

nearcoord:Längengrad,Breitengrad
nearcoord:Suchradius,Längengrad,Breitengrad

Zwei Varianten, die einen etwas größeren und flexibleren Umkreis zulassen, sind:

  • boost-nearcoord:
  • boost-neartitle:

pageid: Seitenkennnummer

Bearbeiten

Suchkriterien nur auf die angegebenen Seitenkennnummern anwenden.

  • Dies wird eher mit Werkzeugunterstützung verwendet werden, als dass nach Seiten gesucht würde.
  • Die resultierenden Seiten sind über ihre ID ja bereits bekannt.
  • Interessant wäre vielmehr, ob die sonstigen angegebenen Suchkriterien immer noch zutreffen.
  • Vorgesehen wäre etwa folgender Ablauf:
    1. Es wird anhand von Suchkriterien nach bestimmten Inhalten, Kategorien, eingebundenen Vorlagen eine Menge an Treffern bestimmt.
    2. Es werden die Seitenkennnummern vorgemerkt.
    3. Es findet eine Veränderung dieser Seiten statt; ggf. auch durch einen Bot.
    4. Einige Zeit möge verstreichen, damit auch Kategorien aktualisiert sind und der Suchbaum den Änderungen angepasst wurde.
    5. Nun wird die Abfrage mit den Suchkriterien vorangestellten pageid: erneut vorgenommen.
    6. Idealerweise gibt es jetzt keine Treffer mehr.
    7. Falls doch, muss bei den verbleibenden Treffern nachgearbeitet werden.
  • Es lässt sich auch eine private Gruppe bestimmter Seiten definieren, die weder durch Kategorien noch andere Merkmale abzugrenzen sind.
  • Die Suche ist sehr effizient, weil nur die konkret angegebenen Seiten untersucht werden müssen.

Die Syntax lautet:

pageid:SeitenID
pageid:SeitenID1|SeitenID2|

Die Option ist von der Längenprüfung ausgenommen; es besteht kein Risiko von Leistungsproblemen bei reinen documentID-Prüfungen.

  • Beispiel: pageid:2552494|3723873|5632

Zurzeit kann es erforderlich werden, sinnloserweise noch all: voranzustellen, um direkte oder indirekte Vorgaben durch die URL-Parameter außer Kraft zu setzen. Damit wird sichergestellt, dass auch alle Namensräume beachtet und nicht wieder ausgefiltert werden, obwohl die Namensräume und Seiten bereits eindeutig und vollständig durch die Seitenkennungen identifiziert wurden.[6] Umgekehrt wirkt das wie eine UND-Verknüpfung: Wende die Suche auf die Seiten an, die sowohl die spezifizierte Seitenkennnummer haben als auch zurzeit den eingrenzenden Namensräumen zugeordnet sind.

prefer-recent: Kürzliche Änderungen bevorzugen

Bearbeiten

Diese Option bewertet in der Trefferliste kürzlich veränderte Seiten anders (höher).

Die Syntax lautet:

prefer-recent:Zeitanteil,Halbwertszeit

  • Der Zeitanteil an der Wertung ist standardmäßig auf 0.6 eingestellt.
    • Es muss eine Zahl zwischen 0 und 1 sein; mit Punkt als Dezimaltrennzeichen.
    • Eine Erhöhung bevorzugt frische Artikel gegenüber textlicher Übereinstimmung.
  • Die Halbwertszeit ist in Tagen gezählt und auf 160 voreingestellt.
    • Dezimalzahlen mit Punkt als Dezimaltrennzeichen sind möglich.
    • Sehr kleine Werte bevorzugen sehr aktuelle Veränderungen; .0001 (rund 8,64 Sekunden) liefern gute Ergebnisse.

Es ist alternativ auch möglich, die Sortierreihenfolge über die erweiterte Suche zu definieren.

prefix: Filter für Seitennamen

Bearbeiten

Mit dieser Option kann die Suche auf bestimmte Seitennamen und vor allem einen Namensraum begrenzt werden.

Die Syntax lautet:

prefix:Namensbeginn

Die Option muss am Ende des gesamten Suchausdrucks stehen; Anführungszeichen zur Gruppierung sind nicht nötig.

  • Beispiel: -intitle:Editnotice prefix:Hilfe:Seite findet Hilfeseiten, deren Name mit „Seite“ beginnt, aber keine Editnotice sind.

Auch alle Aliasse und Schreibweisen eines Namensraums sind legitim.

subpageof: Filter für Unterseiten

Bearbeiten

Nur in den Unterseiten einer Seite suchen, die durch den Parameter spezifiziert wird.

Ist weitgehend auch durch prefix: erreichbar; dies wirkt auch in Namensräumen, in denen die eigentliche Unterseitentechnik nicht aktiv ist.

Beispiele

Bearbeiten
  • Diskussion:Haus findet in der Volltextsuche[2] alle Artikel-Diskussionsseiten zu einer Seite, deren Titel das Wort „Haus“ enthält.
  • Anfang* findet alle Artikel, in denen ein mit dieser Zeichenkette beginnendes Wort vorkommt; oder direkt das Wort anfang.
  • *ende findet alle Artikel, in denen ein mit dieser Zeichenkette endendes Wort vorkommt; oder direkt das Wort ende.
  • ungefair~ findet allerlei von „ungefähr“ bis „unfair“.
  • Haus -Dach findet alle Artikel, in denen „Haus“ enthalten ist, nicht aber „Dach“.
  • "schweizer käse" hat etwa 57 Treffer.
  • schweizer käse hat über 1100 Treffer.
  • "schweizer käse"~ hat etwa 63 Treffer.
  • "schweizer käse"~9 hat etwa 77 Treffer.
  • schweizer OR käse hat fast 150.000 Treffer.
  • Datei:Amsterdam findet ausschließlich Mediendateien, bei denen das Wort „Amsterdam“ vorkommt.
  • Wien boost-templates:"Vorlage:Lesenswert|500%" findet insbesondere solche Artikel, die das Wort „Wien“ enthalten und mittels {{Lesenswert}} gekennzeichnet sind.
  • Datei: -hastemplate:Information findet alle Mediendateien, bei denen die {{Information}} nicht vorhanden ist. Die Negation rührt von dem Minuszeichen vor hastemplate: her.
  • incategory:Wikipedia:Lückenhaft -incategory:Wikipedia:Löschkandidat findet alle Artikel, die in der Kategorie:Wikipedia:Lückenhaft eingeordnet wurden, aber nicht zur Löschung anstehen.
  • insource:toolserver findet Artikel.
  • insource:"index.php?title=" findet Artikel.
  • insource:"index php title" findet keine Artikel.
  • intitle:"Haus Begriffsklärung" findet entsprechende Artikel.
  • Hilfe:linksto:Hilfe:Suche incategory:Hilfe:Spezialseite findet entsprechend verlinkte Hilfeseiten in der Kategorie:Hilfe:Spezialseite.
  • -intitle:Editnotice prefix:Hilfe:Seite findet Hilfeseiten, deren Name mit „Seite“ beginnt, aber keine Editnotice sind.
  • contentmodel:json prefix:MediaWiki: findet Systemnachrichten als JSON

Interface Erweiterte Suche

Bearbeiten
 
Interface Erweiterte Suche

Seit dem 29. November 2017 gibt es in einigen Wikipedias – unter anderem auch hier – das Betafeature Erweiterte Suche, welches auf der Suchseite eine erweiterte Suchmaske aktiviert. Ist es aktiviert, können einige der oben genannten Funktionen über das Interface verwendet werden, ohne die Keywords kennen zu müssen. Es kann in den Einstellungen aktiviert werden. Feedback dazu kann hier gegeben werden.

Suchhinweise in der Seite

Bearbeiten

Mittels der CSS-Klasse searchaux können Bereiche des Seitentextes als „nebensächlich“ eingestuft werden.

Das ist nicht für die Verwendung im Quelltext enzyklopädischer Artikel vorgesehen; vielmehr zur Programmierung bestimmter Vorlagen, die irreführende Fehltreffer liefern würden. So bringt {{Dieser Artikel}} einen weiteren Treffer in einem völlig anderen Artikel, während das eigentliche Objekt des Begehrens ohnehin schon in der Trefferliste steht. Gleiches gilt für Folge- und Navigationsleisten; hier liefern sämtliche Elemente der Aufzählung zusätzliche Treffer.

„Nebensächlich“ bedeutet dabei nur, dass die Ergebnisse am Ende der Trefferliste einsortiert werden sollen, nicht aber ein völliges Verschwinden. Damit soll der Artikel, der den Suchbegriff direkt behandelt, möglichst weit vorn und optimal am Anfang der Trefferliste erscheinen, während die in gleicher Kategorie eingeordneten Artikel, die ihn ausschließlich in einer Navigationsleiste verlinken, niedrige Priorität erhalten.

Eine weitere CSS-Klasse, mit der nachrangige und fehlleitende (Navigations-)Elemente ganz von der Aufnahme in den wikinternen Suchbaum ausgeschlossen werden können, wäre navigation-not-searchable – es wäre jedoch unzulässig, zu versuchen, die Inhalte ganzer Seiten vor anderen Benutzern zu verstecken.

Auf die Suche im Quelltext mittels insource: haben diese HTML-Klassen keinen Einfluss. Insbesondere können auch alle Seiten wieder aufgefunden werden, die derartige Klassen verwenden.

Bis nach Einfügen von searchaux usw. in eine Vorlage alle einbindenden Artikel im Suchbaum auch die geeignete Gewichtung bekommen haben, kann es längere Zeit dauern.

Weitere Informationen

Bearbeiten
MediaWiki: Help:CirrusSearch/de – Anleitung (deutsch/englisch)
MediaWiki: Extension:CirrusSearch – Technische Informationen (englisch)
Phabricator – Workboard: #cirrussearch – Fehlermeldungen, Direktkontakt zu den Entwicklern (englisch)

Anmerkungen

Bearbeiten
  1. Bis 2014 wurde die Suchmaschine Lucene direkt angesprochen. mw:Extension:Lucene-search (englisch).
  2. a b In der normalen Suchbox springt dies direkt zur Seite Diskussion:Haus. Soll das vermieden werden, ist eine ~ voranzustellen.
  3. Phabricator – Bug/Feature: T104814
  4. Phabricator – Bug/Feature: T91666
  5. Mit Hilfe der Systemnachricht MediaWiki:Cirrussearch-morelikethis-settings kann das pro Wiki individuell konfiguriert werden: Gerrit:220825, phab:T101111.
  6. phab:T271425