Google: Seite nicht in Index aufnehmen

Meistens wird versucht, Inhalte auf einer Website möglichst schnell bei Google zu indexieren. Es gibt aber durchaus Fälle, bei denen es sinnvoll ist, Inhalte explizit nicht bei Google auffindbar zu machen. Darüber, wie man das umsetzt, gibt es einige Mythen und sehr viele falsche Aussagen im Netz. Mit diesem Artikel will ich Klarheit schaffen: So verhinderst du die Indexierung und Auffindbarkeit einer Unterseite bei Google.

Was bedeutet „indexieren“?

Google versucht, alle Inhalte, die es im Netz gibt, zu finden, zu analysieren und somit über die Google-Suche auffindbar zu machen. Diesen Vorgang nennt man Indexierung. Wer also möchte, dass seine Inhalte über Google auffindbar sind, muss dafür sorgen, dass diese von Google in einem ersten Schritt indexiert werden.

Standardmäßig werden alle mit einem CMS (zum Beispiel WordPress oder Drupal) erstellten Seiten so veröffentlicht, dass Google erlaubt wird, diese Seiten zu indexieren. Im HTML head-Bereich des Quellcodes ist dann häufig dieser Meta-Tag zu finden:

<meta name="robots" content="index,follow"/>

Diese Auszeichnung für Suchmaschinen bedeutet übersetzt: „Nimm diese Seite in den Index auf und folge allen Links, die du findest.“ Jede Unterseite kann individuell für den Index freigegeben werden oder eben nicht.

Auch wenn diese Angabe fehlt indexiert Google die Seite – „index,follow“ ist der Standard.

Welche Seiten sollen nicht indexiert werden?

Generell sollte euer Ziel aber sein, nur die Inhalte bei Google auffindbar zu machen, die euren potentiellen Lesern und Kunden auch wirklich einen Mehrwert bieten. Das heißt auch, dass nur Seiten im Index landen sollten, die über eine ausreichende Qualität verfügen. Unterseiten, die das nicht erfüllen, sollten zum einen nicht im Google-Index landen, zum anderen aber auch gar nicht Bestandteil eurer Seite sein – das ist aber ein anderes Thema 😉

Lesetipp: Geniale Inhalte erstellen

Klassische Beispiele für Seiten, die von der Indizierung ausgeschlossen werden sollen:

  • Datenschutzerklärung
  • Danke-Seiten (beispielsweise nachdem ein Formular abgesendet wurde)
  • Filter-Seiten in Shops mit unterschiedlicher Sortierung für gleiche Inhalte
  • Paginierte Seiten

Achtung, das mit den Shops ist ein sehr komplexes Thema und sollte entsprechend sensibel angegangen werden!

Wie kann ich eine Indexierung verhindern?

Wie eingangs erwähnt, gibt es viele Mythen und falsche Infos im Netz, wie ihr bestimmte Inhalte aus dem Index fern haltet. Im Folgenden erfahrt ihr, was mit welchen Meta Tags, Attributen und Dateien möglich ist, beziehungsweise wofür sie eingesetzt werden.

noindex, nofollow, robots.txt, sitemap.xml, canonical - hä? Klick um zu Tweeten

Damit eine Unterseite nicht im Index von Suchmaschinen auftaucht, habt ihr nur zwei Möglichkeiten:

  • robots noindex
    Mit dieser Anweisung, die im head-Bereich der Website stehen muss, wird den Suchmaschinen-Bots gesagt, dass diese Unterseite nicht im Index landen soll. Dabei ist es egal, ob diese Seite von intern oder extern verlinkt wird – die Seite landet nicht im Index. Das entsprechende Code-Snippet sieht so aus:

    <meta name="robots" content="noindex"/>
  • canonical
    Der Canonical muss ebenfalls im head der Seite untergebracht werden. Allerdings ist diese Angabe nicht zum klassischen Deindexieren konzipiert. Gibt es denselben oder einen sehr ähnlichen Inhalt auf einer anderen Seite, kann mit dieser Angabe definiert werden, welches das Original ist, sodass nur dieses im Index auftaucht. Inkorrekt eingesetzt kann hier aber auch der falsche Inhalt deindexiert werden, seid also vorsichtig beim Einsatz. So sieht das Code-Snippet aus:

    <link rel="canonical" href="http://www.deine-domain.de/limk-zum/originalinhalt" />
Indexieren verboten Hinweis
Indexierung verboten: Klappt nur mit noindex oder canonical

Die folgenden Möglichkeiten verhindern nicht, dass ein Inhalt bei Google im Index landet:

  • Die Seite nur mit rel=“nofollow“ verlinken
    Egal ob via robots-nofollow-Anweisung im HTML-Head oder via rel=“nofollow“ bei allen intern eingehenden Links, die Seite wird trotzdem im Index landen. Der Grund dafür ist einfach: nofollow sagt lediglich „folge diesem Link nicht“ beziehungsweise im Falle von robots nofollow „folge keinem der von dieser URL ausgehenden Links“. Sobald eine URL von extern verlinkt wird (also einen Backlink hat) oder über die Sitemap bei Google eingereicht wird, wird die URL entsprechend auch im Index landen.
  • Die Seite mithilfe der robots.txt auf disallow setzen
    Mit dieser Anweisung in der robots.txt sagst du „crawle diese URL nicht“. Das geht solange gut, bis Google auf anderem Wege (siehe vorherigen Punkt) über diese so vermeintlich gesperrte Seite stolpert. Hast du eine via robots.txt gesperrte Seite mit noindex ausgezeichnet, wird Google diese noindex-Anweisung auch gar nicht finden. Siehe dazu auch diese Case Study: Wie ich das DM Warenkorb Snippet übernommen habe.
  • Die Seite aus der sitemap.xml ausschließen
    Einfach gesagt hilft dir die XML-Sitemap dabei, alle zu indexierenden Seiten an Google zu übermittel: „Hey Google, das sind alle meine Seiten, nimm die bitte in den Index auf.“ Wenn eine Seite nicht in der Sitemap gelistet wird, heißt das aber nicht, dass die Seite nicht in den Index aufgenommen werden soll oder darf.

Jetzt weißt du, wie du die Google Indizierung steuern kannst. Hast du noch Fragen zu dem Thema? Lass mir doch einfach einen Kommentar da!

Alle Beiträge von Dominik

Unsere meistgelesenen Beiträge

Vier Jahre Chromebook: Ein Erfahrungsbericht

Google Chromebook
|
Gute 25 Jahre PC-Nutzung - von Anfang an mit Windows. Dann raucht im wahrsten Sinne des Wortes mein teures und gar nicht so altes Lenovo-Notebook ab. Und ich bestelle mir einfach ein Chromebook und bin schneller weg aus der Windows-Welt, als ich es für möglich gehalten hätte. VierJahre ist das nun her - und ich habe zwischendurch immer wieder über meine Erfahrungen mit dem Chromebook berichtet.