Die robots.txt-Datei ist ein kleines, aber mächtiges Werkzeug in der Welt der Suchmaschinenoptimierung (SEO) und für Webmaster. Doch was genau verbirgt sich hinter diesem Begriff, und warum sollte jede Website eine haben? In diesem Beitrag erfährst Du alles, was Du wissen musst.
Vorab wie immer die Kurzfassung:
TL;DR – Die robots.txt
- Eine Textdatei im Stammverzeichnis Deiner Website, die Suchmaschinen-Crawlern sagt, welche Bereiche durchsucht werden dürfen.
- Kontrolliert den Website-Zugriff und verbessert die Crawling-Effizienz; schützt sensible Daten vor Indexierung.
- Erstellt in einem Texteditor, gespeichert als “robots.txt”, Anweisungen hinzufügen und ins Stammverzeichnis hochladen.
- Syntax für vollständige Sperre: User-agent: * und Disallow: / sperrt den Zugriff auf die gesamte Website.
- Vermeide Syntaxfehler, aktualisiere die Datei regelmäßig, nutze spezifische Anweisungen und füge eine Sitemap hinzu.
- Jede Subdomain benötigt eine eigene robots.txt-Datei, unterschiedliche Anweisungen pro Subdomain sind möglich.
Was ist die robots.txt-Datei?
Die robots.txt-Datei ist eine einfache Textdatei, die sich im Stammverzeichnis Deiner Website befindet. Sie enthält Anweisungen für Suchmaschinen-Robots (auch Crawler genannt) darüber, welche Seiten oder Bereiche Deiner Website sie durchsuchen dürfen und welche nicht.
Diese Anweisungen helfen dabei, den Crawlern den Weg zu weisen und sicherzustellen, dass nur die gewünschten Inhalte indexiert werden.
Warum ist sie für Deine Website wichtig?
Eine gut konfigurierte robots.txt-Datei kann die Effizienz der Suchmaschinen-Crawler verbessern und verhindern, dass unnötige oder sensible Inhalte durchsucht und indexiert werden. Dies hat mehrere Vorteile:
- Kontrolle über den Website-Zugriff: Du bestimmst, welche Teile Deiner Website von Suchmaschinen erfasst werden sollen und welche nicht.
- Verbesserte Crawling-Effizienz: Durch das Ausklammern unwichtiger Seiten können die Crawler ihre Ressourcen besser nutzen und sich auf die wichtigen Inhalte konzentrieren.
- Schutz sensibler Daten: Du kannst verhindern, dass private oder sicherheitsrelevante Informationen in den Suchmaschinenindex gelangen.
Die robots.txt-Datei ist also ein essenzielles Werkzeug, um die Sichtbarkeit und Sicherheit Deiner Website zu steuern.
In den folgenden Abschnitten erfährst Du alles Wichtige zur Erstellung, Verwaltung und Optimierung Deiner eigenen robots.txt-Datei.
Wo findet man die robots.txt-Datei?
Wo genau befindet sich diese Datei, und wie kannst Du sie bei WordPress verwalten?
Zugriff auf die robots.txt-Datei bei WordPress
Bei WordPress-basierten Websites ist die robots.txt-Datei leicht zugänglich. Standardmäßig wird sie im Stammverzeichnis Deiner Website abgelegt, also direkt unter der Hauptdomain (z.B. https://deinewebsite.com/robots.txt).
Wenn Du jedoch eine benutzerdefinierte robots.txt-Datei erstellen oder die bestehende bearbeiten möchtest, gibt es dafür mehrere Möglichkeiten.
Typischerweise kannst Du darauf über das Control Panel (z.B. cPanel) zugreifen oder über ein FTP-Programm wie FileZilla.
Verwendung von Plugins zur Verwaltung der robots.txt-Datei
WordPress bietet zahlreiche Plugins, die Dir die Verwaltung der robots.txt-Datei erleichtern. Hier sind einige beliebte Optionen:
- Yoast SEO: Dieses weit verbreitete SEO-Plugin ermöglicht es Dir, die robots.txt-Datei direkt aus dem WordPress-Dashboard heraus zu bearbeiten. Du findest die Einstellung unter “SEO” > “Werkzeuge” > “Datei-Editor”.
- All in One SEO Pack: Ähnlich wie Yoast bietet auch dieses Plugin eine benutzerfreundliche Möglichkeit, die robots.txt-Datei zu bearbeiten. Gehe dazu in den Einstellungen auf “Feature Manager” und aktiviere den “robots.txt-Editor”.
- WP robots.txt: Ein einfaches, spezialisiertes Plugin, das ausschließlich zur Verwaltung der robots.txt-Datei dient. Es bietet eine intuitive Benutzeroberfläche und ermöglicht es Dir, die Datei nach Deinen Bedürfnissen anzupassen.
Durch die Verwendung dieser Plugins kannst Du die robots.txt-Datei Deiner WordPress-Website schnell und einfach erstellen, bearbeiten und optimieren. Dies spart nicht nur Zeit, sondern stellt auch sicher, dass Du keine wichtigen Einstellungen übersiehst.
In den nächsten Abschnitten wirst Du lernen, wie Du eine robots.txt-Datei erstellst, wie Du alles per robots.txt verbietest und wie Du die Datei richtig ausliest.
Wie erstellt man eine robots.txt-Datei?
Die robots.txt-Datei ist eine einfache Textdatei, die Anweisungen für Suchmaschinen-Crawler enthält. Sie besteht aus einer Reihe von Anweisungen, die festlegen, welche Bereiche Deiner Website durchsucht werden dürfen und welche nicht. Die grundlegenden Anweisungen sind:
User-agent: Gibt an, für welchen Crawler die Anweisungen gelten (z.B. Googlebot, Bingbot). Disallow: Bestimmt, welche Seiten oder Verzeichnisse der Crawler nicht durchsuchen darf. Allow: Erlaubt den Zugriff auf bestimmte Seiten oder Verzeichnisse, auch wenn sie in einem ansonsten gesperrten Bereich liegen.
Ein einfaches Beispiel für eine robots.txt-Datei könnte so aussehen:
User-agent: *
Disallow: /private/
Allow: /private/allowed-page.html
In diesem Beispiel wird allen Crawlern (”*”) der Zugriff auf das Verzeichnis “/private/” verweigert, aber die Seite “/private/allowed-page.html” wird ausdrücklich erlaubt.
Schritt-für-Schritt-Anleitung zur Erstellung einer robots.txt-Datei
1. Datei erstellen:
• Öffne einen Texteditor Deiner Wahl (z.B. Notepad, TextEdit).
• Erstelle eine neue Datei und speichere sie als “robots.txt”.
2. Anweisungen hinzufügen:
• Füge die gewünschten Anweisungen für die Crawler hinzu.
3. Datei hochladen:
• Speichere die Datei und lade sie in das Stammverzeichnis Deiner Website hoch. Dies kannst Du über ein FTP-Programm wie FileZilla oder über das Dateimanagement-System Deines Hosting-Anbieters tun.
4. Überprüfung:
• Stelle sicher, dass die Datei korrekt hochgeladen wurde, indem Du in Deinem Browser zu “https://deinewebsite.com/robots.txt” navigierst. Du solltest die Anweisungen sehen, die Du hinzugefügt hast.
Wie kann ich per robots.txt alles verbieten?
Es gibt Situationen, in denen es sinnvoll sein kann, den Zugriff von Suchmaschinen-Crawlern auf Deine gesamte Website zu verhindern. Dies kann etwa der Fall sein, wenn Deine Website noch in der Entwicklung ist oder wenn Du bestimmte Inhalte aus verschiedenen Gründen komplett vor Suchmaschinen verbergen möchtest.
Um allen Suchmaschinen-Crawlern den Zugriff auf Deine Website zu verbieten, benötigst Du nur wenige Zeilen in Deiner robots.txt-Datei. Die grundlegende Syntax dafür lautet:
User-agent: *
Disallow: /
User-agent: Das Sternchen (*) steht für alle Crawler. Diese Anweisung gilt somit für alle Suchmaschinen-Robots.
Disallow: Der Schrägstrich (/) bedeutet, dass das gesamte Website-Verzeichnis gesperrt wird.
Wichtige Hinweise
- Denke daran: Die robots.txt-Datei verhindert lediglich, dass Crawler die angegebenen Bereiche durchsuchen. Sie bietet keinen wirklichen Schutz vor unerwünschtem Zugriff. Sensible Daten sollten immer zusätzlich durch andere Maßnahmen (z.B. Passwortschutz) gesichert werden.
- Überlegte Nutzung: Prüfe sorgfältig, ob eine vollständige Sperrung sinnvoll ist. In den meisten Fällen ist es besser, gezielt nur bestimmte Bereiche zu sperren, um sicherzustellen, dass Suchmaschinen die relevanten Inhalte Deiner Website indexieren können.
Wie geht Bing mit der robots.txt um?
Suchmaschinen behandeln die Anweisungen in der robots.txt-Datei oft unterschiedlich, und Bing ist da keine Ausnahme. Um sicherzustellen, dass Deine Website optimal von Bing durchsucht wird, ist es wichtig zu verstehen, wie Bing die robots.txt-Datei interpretiert und umsetzt.
- Striktere Einhaltung der Anweisungen:
Bing folgt den Anweisungen in der robots.txt-Datei sehr genau. Wenn Du also bestimmte Seiten oder Verzeichnisse in der Datei sperrst, kannst Du ziemlich sicher sein, dass Bing diese nicht durchsucht. - Berücksichtigung der Crawl-Delay-Anweisung:
Bing unterstützt die “Crawl-Delay”-Anweisung in der robots.txt-Datei, die festlegt, wie lange der Crawler zwischen den Anfragen warten soll. Dies ist nützlich, um die Serverbelastung zu reduzieren.
Beispiel:
User-agent: Bingbot
Crawl-delay: 10
Spezifische Richtlinien und Empfehlungen von Bing
- Nutzung von Bing Webmaster Tools:
Registriere Deine Website bei den Bing Webmaster Tools. Dort kannst Du die robots.txt-Datei direkt testen und analysieren, wie Bing Deine Website durchsucht. - Erstellung einer Bing-spezifischen Sitemap:
Neben der robots.txt-Datei kannst Du auch eine Sitemap speziell für Bing erstellen und in der robots.txt-Datei angeben. Dies hilft Bing, Deine Website effizienter zu crawlen.
Sitemap: https://deinewebsite.com/bing-sitemap.xml
Handling von Subdomains
Jede Subdomain wird von Suchmaschinen als separate Einheit behandelt, daher benötigt jede auch ihre eigene robots.txt-Datei.
- Separate Dateien für jede Subdomain:
Jede Subdomain sollte ihre eigene robots.txt-Datei im Stammverzeichnis haben. Zum Beispiel:
Für die Hauptdomain: https://deinewebsite.com/robots.txt
Für eine Subdomain: https://blog.deinewebsite.com/robots.txt - Spezifische Anweisungen pro Subdomain:
Du kannst für jede Subdomain unterschiedliche Anweisungen geben, je nachdem, welche Inhalte durchsucht werden sollen und welche nicht.
Beispiel für ein Standard Setup
Ein Standard-Setup für eine robots.txt-Datei erlaubt Suchmaschinen-Crawlern den Zugriff auf die gesamte Website, während bestimmte sensible oder unwichtige Bereiche gesperrt werden.
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Sitemap: https://deinewebsite.com/sitemap.xml
Beispiel E-Commerce Setup
User-agent: *
Disallow: /checkout/
Disallow: /cart/
Disallow: /user-profile/
Allow: /products/
Sitemap: https://shop.deinewebsite.com/sitemap.xml