Was ist die Robots.txt-Datei in einer Domain?

Webmaster Werkzeuge Webseiten Seo Held / by admin / March 19, 2020

nicht angeschlossen

DurchRyan Dube

Zuletzt aktualisiert am31. Januar 2019

Einer der größten Fehler für neue Websitebesitzer besteht darin, nicht in ihre robots.txt-Datei zu schauen. Was ist es überhaupt und warum so wichtig? Wir haben Ihre Antworten.

Wenn Sie eine Website besitzen und sich um die SEO-Gesundheit Ihrer Website kümmern, sollten Sie sich mit der robots.txt-Datei in Ihrer Domain vertraut machen. Ob Sie es glauben oder nicht, das ist eine beunruhigend hohe Anzahl von Leuten, die schnell eine Domain starten, eine schnelle WordPress-Website installieren und sich nie die Mühe machen, etwas mit ihrer robots.txt-Datei zu tun.

Das ist gefährlich. Eine schlecht konfigurierte robots.txt-Datei kann die SEO-Gesundheit Ihrer Website tatsächlich zerstören und die Chancen beeinträchtigen, dass Sie Ihren Traffic steigern.

Was ist die Robots.txt-Datei?

Das Robots.txt Die Datei trägt den passenden Namen, da es sich im Wesentlichen um eine Datei handelt, in der Anweisungen für die Webroboter (wie Suchmaschinenroboter) aufgeführt sind, wie und was sie auf Ihrer Website crawlen können. Dies ist ein Webstandard, dem seit 1994 Websites folgen, und alle wichtigen Webcrawler halten sich an den Standard.

Die Datei wird im Textformat (mit der Erweiterung .txt) im Stammordner Ihrer Website gespeichert. Sie können die robot.txt-Datei jeder Website anzeigen, indem Sie einfach die Domain gefolgt von /robots.txt eingeben. Wenn Sie dies mit groovyPost versuchen, sehen Sie ein Beispiel für eine gut strukturierte robot.txt-Datei.

Die Datei ist einfach, aber effektiv. Diese Beispieldatei unterscheidet nicht zwischen Robotern. Die Befehle werden mit dem Befehl an alle Roboter ausgegeben User-Agent: * Richtlinie. Dies bedeutet, dass alle darauf folgenden Befehle für alle Roboter gelten, die die Site besuchen, um sie zu crawlen.

Angeben von Webcrawlern

Sie können auch bestimmte Regeln für bestimmte Webcrawler angeben. Sie können beispielsweise Googlebot (dem Webcrawler von Google) erlauben, alle Artikel auf Ihrer Website zu crawlen, möchten dies aber möglicherweise Verbieten Sie dem russischen Webcrawler Yandex Bot, Artikel auf Ihrer Website zu crawlen, die abfällige Informationen enthalten Russland.

Es gibt Hunderte von Webcrawlern, die das Internet nach Informationen über Websites durchsuchen. Die 10 häufigsten, über die Sie sich Sorgen machen sollten, sind hier aufgeführt.

Googlebot: Google-Suchmaschine
Bingbot: Bing-Suchmaschine von Microsoft
Schlürfen: Yahoo-Suchmaschine
DuckDuckBot: DuckDuckGo Suchmaschine
Baiduspider: Chinesische Baidu-Suchmaschine
YandexBot: Russische Yandex-Suchmaschine
Exabot: Französische Exalead-Suchmaschine
Facebot: Facebooks Crawling-Bot
ia_archiver: Alexas Web-Ranking-Crawler
MJ12bot: Große Link-Indizierungsdatenbank

Nehmen Sie das obige Beispielszenario, wenn Sie Googlebot erlauben möchten, alles auf Ihrer Website zu indizieren, dies aber möchten Wenn Sie Yandex daran hindern, Ihren russischen Artikelinhalt zu indizieren, fügen Sie Ihrer robots.txt die folgenden Zeilen hinzu Datei.

User-Agent: Googlebot Nicht zulassen: Nicht zulassen: / wp-admin / Nicht zulassen: /wp-login.php

Benutzeragent: yandexbot Nicht zulassen: Nicht zulassen: / wp-admin / Nicht zulassen: /wp-login.php Nicht zulassen: / russia /

Wie Sie sehen können, verhindert der erste Abschnitt nur, dass Google Ihre WordPress-Anmeldeseite und Verwaltungsseiten crawlt. Der zweite Abschnitt blockiert Yandex aus demselben, aber auch aus dem gesamten Bereich Ihrer Website, in dem Sie Artikel mit Anti-Russland-Inhalten veröffentlicht haben.

Dies ist ein einfaches Beispiel dafür, wie Sie das verwenden können Nicht zulassen Befehl zum Steuern bestimmter Webcrawler, die Ihre Website besuchen.

Andere Robots.txt-Befehle

Disallow ist nicht der einzige Befehl, auf den Sie in Ihrer robots.txt-Datei zugreifen können. Sie können auch einen der anderen Befehle verwenden, die festlegen, wie ein Roboter Ihre Site crawlen kann.

Nicht zulassen: Weist den Benutzeragenten an, das Crawlen bestimmter URLs oder ganzer Abschnitte Ihrer Website zu vermeiden.
ermöglichen: Ermöglicht die Feinabstimmung bestimmter Seiten oder Unterordner auf Ihrer Site, auch wenn Sie möglicherweise einen übergeordneten Ordner nicht zugelassen haben. Zum Beispiel können Sie: / about / nicht zulassen, aber dann zulassen: / about / ryan /.
Kriechverzögerung: Dies weist den Crawler an, xx Sekunden zu warten, bevor er mit dem Crawlen des Inhalts der Site beginnt.
Seitenverzeichnis: Geben Sie Suchmaschinen (Google, Ask, Bing und Yahoo) den Speicherort Ihrer XML-Sitemaps an.

Denken Sie daran, dass Bots werden nur Hören Sie sich die Befehle an, die Sie angegeben haben, wenn Sie den Namen des Bots angeben.

Ein häufiger Fehler besteht darin, Bereiche wie / wp-admin / von allen Bots auszuschließen, dann aber einen Googlebot-Abschnitt anzugeben und nur andere Bereiche (wie / about /) zu verbieten.

Da Bots nur den Befehlen folgen, die Sie in ihrem Abschnitt angegeben haben, müssen Sie alle anderen Befehle, die Sie für alle Bots angegeben haben, erneut verwenden (mithilfe des * Benutzeragenten).

Nicht zulassen: Der Befehl, mit dem ein Benutzeragent angewiesen wird, eine bestimmte URL nicht zu crawlen. Für jede URL ist nur eine Zeile "Nicht zulassen:" zulässig.
Zulassen (gilt nur für Googlebot): Der Befehl, Googlebot mitzuteilen, dass auf eine Seite oder einen Unterordner zugegriffen werden kann, obwohl die übergeordnete Seite oder der übergeordnete Unterordner möglicherweise nicht zulässig sind.
Kriechverzögerung: Wie viele Sekunden sollte ein Crawler warten, bevor er Seiteninhalte lädt und crawlt? Beachten Sie, dass Googlebot diesen Befehl nicht bestätigt, die Crawling-Rate jedoch in der Google Search Console festgelegt werden kann.
Seitenverzeichnis: Wird verwendet, um den Speicherort einer XML-Sitemap aufzurufen, die dieser URL zugeordnet ist. Beachten Sie, dass dieser Befehl nur von Google, Ask, Bing und Yahoo unterstützt wird.

Beachten Sie, dass robots.txt dazu beitragen soll, dass legitime Bots (wie Suchmaschinen-Bots) Ihre Website effektiver crawlen.

Es gibt viele schändliche Crawler, die Ihre Website crawlen, um beispielsweise E-Mail-Adressen zu kratzen oder Ihre Inhalte zu stehlen. Wenn Sie versuchen möchten, mit Ihrer robots.txt-Datei zu verhindern, dass diese Crawler irgendetwas auf Ihrer Website crawlen, stören Sie sich nicht. Die Ersteller dieser Crawler ignorieren normalerweise alles, was Sie in Ihre robots.txt-Datei eingefügt haben.

Warum etwas verbieten?

Für die meisten Websitebesitzer ist es ein Hauptanliegen, die Google-Suchmaschine dazu zu bringen, so viele hochwertige Inhalte wie möglich auf Ihrer Website zu crawlen.

Google gibt jedoch nur einen begrenzten Betrag aus Crawling-Budget und Crawling-Rate auf einzelnen Websites. Die Durchforstungsrate gibt an, wie viele Anfragen Googlebot während des Durchforstungsereignisses an Ihre Website stellt.

Wichtiger ist das Crawling-Budget, dh die Anzahl der Anfragen, die Googlebot insgesamt zum Crawlen Ihrer Website in einer Sitzung stellt. Google "gibt" sein Crawling-Budget aus, indem es sich auf Bereiche Ihrer Website konzentriert, die sehr beliebt sind oder sich in letzter Zeit geändert haben.

Sie sind für diese Informationen nicht blind. Wenn Sie besuchen Google Webmaster Toolskönnen Sie sehen, wie der Crawler mit Ihrer Site umgeht.

Wie Sie sehen, hält der Crawler die Aktivität auf Ihrer Website jeden Tag ziemlich konstant. Es werden nicht alle Websites gecrawlt, sondern nur diejenigen, die es für am wichtigsten hält.

Warum sollten Sie es Googlebot überlassen, zu entscheiden, was auf Ihrer Website wichtig ist, wenn Sie Ihre robots.txt-Datei verwenden können, um die wichtigsten Seiten zu ermitteln? Dadurch wird verhindert, dass Googlebot Zeit auf Seiten mit geringem Wert auf Ihrer Website verschwendet.

Optimieren Sie Ihr Crawling-Budget

Mit den Google Webmaster-Tools können Sie auch überprüfen, ob Googlebot Ihre robots.txt-Datei ordnungsgemäß liest und ob Fehler vorliegen.

Auf diese Weise können Sie überprüfen, ob Sie Ihre robots.txt-Datei korrekt strukturiert haben.

Welche Seiten sollten Sie von Googlebot verbieten? Es ist gut für Ihre Website-SEO, die folgenden Seitenkategorien nicht zuzulassen.

Doppelte Seiten (wie druckerfreundliche Seiten)
Vielen Dank Seiten nach formularbasierten Bestellungen
Bestell- oder Informationsabfrageformulare
Kontaktseiten
Anmeldeseiten
Verkaufsseiten für Bleimagnete

Ignorieren Sie Ihre Robots.txt-Datei nicht

Der größte Fehler, den neue Website-Besitzer machen, besteht darin, niemals ihre robots.txt-Datei anzusehen. Die schlimmste Situation könnte sein, dass die Datei robots.txt tatsächlich verhindert, dass Ihre Site oder Bereiche Ihrer Site überhaupt gecrawlt werden.

Überprüfen Sie Ihre robots.txt-Datei und stellen Sie sicher, dass sie optimiert ist. Auf diese Weise „sehen“ Google und andere wichtige Suchmaschinen all die fantastischen Dinge, die Sie der Welt mit Ihrer Website anbieten.

Tags Wolke

Bewertung

124

Ansichten

Bemerkungen