International SEO: Wenn Google trotz korrekt implementierter HREFLANG unerwartete Ergebnisse liefert

Bei mehrsprachigen Websites und für International SEO stellt die korrekte Implementierung des hreflang-Attributs oft eine Herausforderung dar. Dieses Attribut soll Suchmaschinen dabei helfen, die richtige Sprach- und Landesversion einer Seite für Nutzer auszuwählen. Doch selbst bei korrekter Umsetzung kann es zu unerwarteten Ergebnissen kommen, wenn für den gleichen Sprachraum unterschiedliche Länderversionen angelegt wurden, wie es etwa bei Österreich, Deutschland und der Schweiz oder England, USA, Australien etc. vorkommen kann. Dieses HREFLANG-Problem zeigt sich dann in der Search Console.

In der Search Console gibt es dann den Hinweis, dass bei der Indexierung nicht die vom Nutzer angegebene kanonische URL verwendet wurde, sondern eine andere von Google als kanonische URL ausgewählt wurde. Beispiel – hier wurde die URL über die Dev-Tools anonymisiert:

Angegebene und ausgewählte kanonische URL

Selbst eine Zuordnung des Inhalts über ccTLDs (.de und .at) ist keine Hilfe. Auch bei Top-Level-Domains kann das Problem auftauchen. Also um das fiktive Beispiel weiterzuführen:

Kanonische Zuweisung bei Top-Level-Domains

Der Mechanismus hinter dem Problem

Dieses unerwartete Verhalten von Google kann auftreten, wenn der Suchmaschinen-Crawler Seiten aus verschiedenen Ländern indexiert, die sich inhaltlich stark ähneln. Ein Beispiel: Google crawlt zunächst die deutsche (DE) Version einer Seite, berechnet den sogenannten Hash-Wert und indexiert die Seite mit der DE-URL als kanonische Version. Wenn Google anschließend die österreichische (AT) Version der Seite crawlt, berechnet es erneut den Hash-Wert und erkennt, dass dieser identisch mit der bereits indexierten DE-Version ist. Statt die AT-URL separat zu indexieren, fügt Google sie dem bereits vorhandenen Dokument hinzu.

Hashing ist eine Technik, die Google verwendet, um den Inhalt von Webseiten effizienter zu indizieren und Duplikate zu erkennen. Ein Hash-Wert ist ein eindeutiger, kryptographischer Wert (eine Art Fingerabdruck), der durch eine Hash-Funktion basierend auf dem Inhalt einer Webseite erstellt wird. Wenn zwei Seiten denselben Hash-Wert haben, deutet das darauf hin, dass ihr Inhalt identisch oder sehr ähnlich ist. Als gesichert darf gelten, dass Google Simhash einsetzt bei Crawling.

SimHash zum Vergleichen von Inhalten und Erkennen von Dupliakten

Simhash ist eine spezielle Technik, die Google verwendet, um Inhalte effizient zu analysieren und zu vergleichen, insbesondere im Hinblick auf das Erkennen von Duplicate Content. Simhash ermöglicht es, große Mengen von Daten schnell auf Ähnlichkeiten zu überprüfen, ohne dabei jeden einzelnen Inhalt vollständig miteinander vergleichen zu müssen.

Simhash funktioniert, indem es bestimmte Merkmale (Features) aus einem Text extrahiert, wie z.B. häufige Wörter, Phrasen oder Strukturen. Diese Merkmale werden in einen Vektor umgewandelt, der die wichtigsten Eigenschaften des Textes repräsentiert. Nach der Vektorisierung erfolgt das Hashing. Aus diesem Vektor wird dann durch eine Hash-Funktion eine kürzere Bit-Sequenz (der Simhash) erzeugt. Der Clou dabei ist, dass ähnliche Texte zu ähnlichen Simhash-Werten führen, was eine schnelle Identifikation von ähnlichen oder fast identischen Inhalten ermöglicht.

Google nutzt Simhash zur Duplicate Content Detection, also um schnell und effizient doppelte oder sehr ähnliche Inhalte auf verschiedenen Webseiten zu erkennen. Wenn zwei Seiten einen ähnlichen Simhash-Wert haben, kann Google dies als Indikator dafür nutzen, dass die Inhalte sehr ähnlich sind, und möglicherweise nur eine Version der Seite in den Suchindex aufnehmen.

Anstatt bei jedem Crawling-Vorgang eine vollständige Textanalyse durchzuführen, kann Google mithilfe von Simhash schnell überprüfen, ob der Inhalt einer Seite sich signifikant von anderen Inhalten unterscheidet. Dies spart Ressourcen und beschleunigt den Prozess des Crawling und der Indexierung.

Ein wichtiger Aspekt von Simhash ist die Fähigkeit, ähnliche Inhalte anhand der Hamming-Distanz zu erkennen. Die Hamming-Distanz misst die Anzahl der Bit-Positionen, in denen zwei Simhash-Werte unterschiedlich sind. Eine kleine Hamming-Distanz zwischen zwei Simhash-Werten bedeutet, dass die entsprechenden Inhalte sehr ähnlich sind. Im Gegensatz zu traditionellen Hash-Methoden, bei denen selbst eine kleine Änderung im Inhalt zu einem völlig anderen Hash-Wert führen kann (Kollisionsresistenz), produziert Simhash ähnliche Hash-Werte für ähnliche Inhalte, was es besonders nützlich für das Erkennen von nahezu identischem Content macht.

Seiten mit ähnlichen Simhash-Werten könnten im Ranking daher schlechter abschneiden, da sie als Duplicate Content oder als weniger originell betrachtet werden, da Google in den Suchergebnissen möglichst einzigartige und qualitativ hochwertige Inhalte anzeigen möchte.

By the way: SimHash lässt sich als Betreiber sehr großer Websites, die viel mit Textspinning und Programmatic SEO in der Content Creation arbeiten, auch nutzen, um Inhalte automatisiert zu vergleichen und den Grad des Duplicate Content zu messen.

Warum hreflang manchmal nicht greift

Google verwendet – vermutlich neben weiteren Verfahren – also SimHash, um den Inhalt von Seiten zu analysieren und festzustellen, ob Seiten Duplikate sind. Wenn zwei Seiten, wie die DE- und AT-Version, denselben SimHash-Wert haben, betrachtet Google diese als identisch und wählt eine kanonische URL aus, unabhängig von den hreflang-Tags. hreflang-Tags sind genauso wie html-lang-Attribute oder Canonical Tags für Google nicht bindend, anders etwa als noindex-Tags oder die Anweisungen in der robots.txt. Daher macht Google, was es für richtig hält im Sinne der besten Nutzererfahrung. Die Festlegung, welche URL als die kanonische bestimmt wird, basiert auf verschiedene Faktoren, wie der Anzahl der eingehenden Links, positiver User Signale und weiteren Kriterien. Diese kanonische URL wird in der Google Search Console (GSC) als solche angezeigt und erhält den gesamten Traffic zugewiesen.

Allerdings bedeutet dies nicht zwangsläufig, dass Nutzern in den Suchergebnissen immer diese kanonische URL angezeigt wird. Vielmehr zeigt Google genau die URL an, die für den Nutzer am relevantesten ist – was nicht immer die kanonische URL sein muss. Ja, ich weiß, es klingt komplex bis widersprüchlich.

Bestehen geringfügige Unterschiede zwischen den Seiten – wie ein kleines Modul auf einer Seite, das in der anderen fehlt – kann das zu einer Unterscheidung führen, die groß genug ist, um als individueller Content zu gelten. Allerdings kann selbst ein minimaler Unterschied in den Suchmaschinenrichtlinien oder eine Änderung im Seiteninhalt oder -design dazu führen, dass Google die Seiten unterschiedlich behandelt oder sie zusammenfasst.

Manchmal ist das Verhalten von Google wirklich bemerkenswert. Mir ist persönlich ein Beispiel eines Online-Shops für Möbel bekannt, indem sowohl die Website als .at für die österreichischen Kunden und als .de für die deutschen Kunden verfügbar ist. Google hat laut Search Console die .at-URL anstelle der .de-URL als kanonische URL ausgewählt hat, obwohl für die deutsche Seite die .de-URL als kanonische URL von der Website definiert wurde.

Besonders merkwürdig wurde dann dieser Fall, als der Möbel-Shop das Produkt auf der .at-Seite offline genommen hatte und die Seite 404 ausgab.

Die URL ist nach wie vor im Index und führt auf eine 404-Seite, während die deutsche Seite weiterhin das Produkt führt, aber nicht im Index ist.

Die .de-Seite dazu führt zwar noch den Seiteninhalt, der Artikel ist allerdings ausverkauft. Dennoch ist es erstaunlich, dass Google die 404-Seite im Index hat und das deutsche Pendant mit einem verfügbaren Seiteninhalte nicht.

Wie das Problem die GSC-Daten beeinflusst

Das von Google beschriebene Verhalten, bei dem verschiedene Länderversionen einer Seite zusammengefasst und eine kanonische URL ausgewählt werden, hat direkte Auswirkungen auf die Aussagekraft der Daten in der Google Search Console (GSC). Dieses Problem führt dazu, dass die in der GSC angezeigten Performance-Daten nicht immer die tatsächliche Darstellung der Suchergebnisse widerspiegeln.

Wenn Google verschiedene Länderversionen einer Seite als Duplikate erkennt und eine davon als kanonische URL auswählt, wird der gesamte Traffic, den die verschiedenen Versionen erhalten, in der GSC der kanonischen URL zugeschrieben. Das bedeutet, dass in der GSC möglicherweise nur Traffic-Daten für die DE-Version einer Seite angezeigt werden, obwohl Nutzer in Österreich tatsächlich die AT-Version gesehen haben. Dies verzerrt die Daten und erschwert es, den Erfolg einzelner Länderversionen korrekt zu messen.

Auch die Ranking-Daten können durch dieses Verhalten beeinflusst werden. Wenn Google die AT-URL beispielsweise als kanonisch bestimmt, aber Nutzern in Deutschland dennoch die DE-Version anzeigt, können die Ranking-Daten in der GSC ebenso irreführend sein. Diese Diskrepanz entsteht, weil die GSC-Daten auf der kanonischen URL basieren, während die tatsächlichen Suchergebnisse möglicherweise eine andere URL anzeigen.

In der GSC sieht es so aus, als ob nur eine URL performt, während in Wirklichkeit mehrere URLs in verschiedenen Ländern angezeigt werden. Dies erschwert die Analyse und das Verständnis der Performance auf Länderebene, insbesondere wenn Unternehmen gezielt unterschiedliche Inhalte oder Optimierungen für verschiedene Märkte anwenden.

Durch dieses Verhalten von Google müssen SEO-Teams ihre Analyseansätze anpassen. Statt sich ausschließlich auf die in der GSC angezeigten Daten zu verlassen, könnten externe Tools genutzt werden, um zu überprüfen, welche URL tatsächlich in den Suchergebnissen in verschiedenen Ländern angezeigt wird. Zudem kann ein genauerer Blick auf die Filtermöglichkeiten in der GSC notwendig sein, beispielsweise durch eine Analyse der Daten nach Land und Länderverzeichnis, um ein klareres Bild der tatsächlichen Performance in den jeweiligen Märkten zu erhalten. Auch Regex-Abfragen in der Seach Console können in diesem Fall eine Hilfe sein. Hierzu folgt demnächst ein separater Artikel von mir.

Strategien zur Lösung

Am besten wäre es ja, wenn Google jede Sprach-Länder-Variante als kanonische URL betrachtet. Wie wir sehen, ist es bei identischen Sprachen nicht sicher. Ein möglicher Lösungsansatz wäre, die Notwendigkeit von Ländervarianten zu hinterfragen und zu prüfen, ob es sinnvoller ist, nur eine Version für sprachlich identische Märkte zu erstellen. Dies kann besonders in Fällen hilfreich sein, in denen die Unterschiede zwischen den Ländern minimal sind. Gibt es nicht mal Unterschiede bei der Währung wie etwa zwischen Deutschland (Euro) und der Schweiz (Franken), ergibt es wenig Sinn, für Österreich mit Euro zusätzlich ein /de-AT/-Verzeichnis zu erstellen, wo alle Inhalte dupliziert enthalten sind.

Wie stark Google nun die Indexierung von Seiten einschränkt, kann sehr einfach gemessen werden über eine InURL-Abfrage in der Google-Suche. Ein Beispiel im folgenden Screenshot: In der Sitemap der Website sind 644 Seiten für /de-CH/und weitere 1312 für /de-DE/ hinterlegt. Im Suchindex finden sich tatsächlich erheblich weniger. Darüber hinaus gibt es bei dieser Website ein weiteres Verzeichnis für /de-AT/. Es darf angenommen werden, dass viele Seiten nicht im Index sind und viele weitere in einer kanonischen URL für die deutsche Sprachen zusammengeführt wurden.

Auch einige SEO-Tools schlagen nach einem Crawling an hinsichtlich Duplicate Content. Aus diesem Grund, wo es länderseitig keine Unterschiede im Inhalt, im Angebot, der Belieferung oder sonstige spezifischen Eigenarten geht, lieber auf die die Sprachverzeichnisse zu setzen und die drei Verzeichniss für Deutschland, Österreich und Schweiz auf /de/ zusammenzuführen.

Eine weitere – und vermutlich die beste – Strategie zur korrekten Kanonisierung der Wunsch-URLs besteht in der stärkeren Differenzierung des Contents. Auch wenn die Sprache gleich ist, können Unterschiede in den Metadaten, dem Hauptinhalt oder der Nutzerführung helfen, den Google-Algorithmus davon zu überzeugen, dass es sich um eigenständige Inhalte handelt, die jeweils einer spezifischen Region zugeordnet sind. So könnte man mit Variablen arbeiten, die die Websitebesucher des jeweiligen Landes begrüßte. Herzlichen willkommen aus <variable>, schön, dass Sie hier sind. Für die <variable> wird dann entsprechend eingesetzt: Österreich für de-at, Deutschland für de-de, Schweiz für de-ch und so weiter. Das gleiche geht dann mit … unsere Lieferbedingungen für <variable>. Je differenzierter der Content, desto individueller wird der Hash-Wert, desto wahrscheinlicher wird Google jede Seite als eigene kanonische URL bestimmen.

Ein dritter Ansatz könnte auch sein, hreflang-Tags in Sitemaps zu verwenden, da dies in einigen Fällen zu einer klareren Zuordnung durch Google führt. Wir selbst geben unsere hreflang-Tags auch in der Sitemap aus und beschränken uns auf die reine Sprachvariante ohne Ländercode.

Das effektivste Mittel bleibt nach meiner Einschätzung, die Inhalte so weit wie möglich zu differenzieren, um Google deutliche Signale zu senden, dass es sich um unterschiedliche Seiten handelt.