Wir antworten gerne.

0521 430600 70

kontakt@epunks.de

Wir sind zertifizierter Google Partner

SEO Onpage Basics - Teil 12

Crawler und Crawlersteuerung aus SEO-Sicht
Alle Artikel anzeigen

05. Jun 2019 von Ann-Christin Klos

4 Crawler und Crawlersteuerung

Die Steuerung der Suchmaschinencrawler ist auch unter SEO-Gesichtspunkten bedeutsam. Nicht relevante Seiten sollten möglichst nicht oder nicht häufig gecrawlt und indexiert werden, während bedeutsame und sich häufig ändernde Seiten vom Crawler häufiger ausgelesen werden sollten. Hierzu gibt es verschiedene Methoden und Werkzeuge; die wichtigsten sind die robots.txt-datei im Rootverzeichnis, der robots-Metatag sowie XML-Sitemaps. Darüberhinaus kann das Verhalten des Google-Crawlers auch mit der Google Search Console beeinflusst werden, was in der Regel aber nicht nötig ist.

4.1 robots.txt vs. robots-Metatag

Von der Indexierung durch Suchmaschinen auszuschließende Seiten müssen immer mittels

oder entsprechender Abwandlungen gekennzeichnet werden. So werden sie gecrawlt aber nicht indexiert. Werden Seiten stattdessen in der robots.txt mittels Disallow gekennzeichnet, werden sie nicht gecrawlt aber dennoch indexiert. Über weitere Angaben im robots-Metatag lässt sich festlegen, ob der Crawler den Links auf der jeweiligen Seite folgen soll (follow/nofollow) und ob die Seite von Google gecached werden darf (archiv/noarchive).

4.2 XML-Sitemap

Um eine Webseite mitsamt Unterseiten für Suchmaschinen schnell und einfach erfassbar zu machen, sollte durch das CMS automatisch eine XML-Sitemap erstellt werden, welche in der robots.txt als Sitemap angegeben und über die Google Search Console eingereicht wird. Hierüber lässt sich in gewissen Grenzen auch die Häufigkeit des Crawlens einzelner Seiten steuern, was sich anbieten kann, wenn man einerseits eher statische und andererseits häufig aktualisierte Unterseiten hat. Auch für verwendete Bilder sollte eine solche Sitemap (“Image-Sitemap”) automatisiert angelegt werden.

4.3 Ladegeschwindigkeit

Die Ladegeschwindigkeit ist zur Zeit einer der wichtigsten Ranking-Faktoren. Sie beeinflusst nicht nur die Positionierung in den Suchergebnissen, sondern auch das Besucherverhalten (Click-through-Rate, Absprungrate, ...) sowie das Verhalten des Crawlers. Je schneller eine Seite lädt, desto mehr Seiten kann der Crawler parallel abrufen und desto mehr Seiten können in der, dem Crawler für die Webseite zur Verfügung stehenden Zeit gecrawlt werden.

4.3.1 Server-Antwortzeiten

Die Time-to-first-Byte sollte, wie auch die Dauer für die Seitenauslieferung insgesamt möglichst gering gehalten werden. Hierfür gibt es verschiedene Maßnahmen, von denen die wichtigsten wohl ein hinreichend schneller Server wie auch der Einsatz von serverseitigen Caching-Mechanismen zur Reduzierung von Datenbankabfragen sind.

4.3.2 GZIP-Komprimierung

Serverseitig sollte die GZIP-komprimierte Seitenauslieferung aktiviert werden. Hierbei werden die zu übertragenden Inhalte auf dem Server komprimiert und nach Empfang clientseitig wieder extrahiert. Hierdurch wird die Ladegeschwindigkeit erhöht und die Größe der zu übertragenden Daten verringert.

4.3.3 Browser-Caching

Ebenfalls serverseitig sollte durch das Festlegen von Ablauf- bzw. Gültigkeitsdauern für Dateitypen den Browsern der Besuchern das Caching dieser Elemente ermöglicht werden. Bis zum festgelegten Datum werden diese Elemente aus dem Browsercache und nicht vom Server geladen, was ebenfalls die Ladegeschwindigkeit erhöht und die Größe der zu übertragenden Daten verringert.

4.3.4 Seitengröße

Neben der Größe der eingebundenen Dateien kann in den meisten Fällen auch die Seitengröße - z.B. durch die Entfernung unnötiger Zeichen (Zeilenumbrüche, Leerzeichen, Kommentare etc.) - optimiert werden. Auch dies führt zu einer Verringerung der zu übertragenden Daten und somit einer Erhöhung der Ladegeschwindigkeit.