homepage » blog » der blick in den goo...

»Blog Homepage

Der Blick in den Google Cache

Der Google-Cache ist ein wichtiger Indikator für die Autorität, die Google einer Website beimisst.

Man muss sich nur einmal in die Lage von Google (und jeder anderen Suchmaschine) versetzen: es sind Unmengen an Speicher und Prozessor-Leistung nötig, um den Index aktuell zu halten und bei Suchanfragen relevante Ergebnisse zu liefern. Solche Computer-Farmen kosten immense Summen von Geld, und dieses ist selbst bei Google limitiert.

Wenn ich also Google wär’, würde ich nur diejenigen Websites regelmässig spidern und im Index aktualisieren, die gemäss meinem internen Ranking-Algorithmus wichtig sind - schliesslich ist die Prozessorleistung meiner Server-Farmen nicht unendlich.

Für uns Webmaster bedeutet dies: crawlt Google die eigenen Seiten nicht täglich (oder alle 2-3 Tage), scheint es sich aufgrund der beigemessenen Relevanz einfach nicht zu lohnen. Dies kann folgende Gründe haben:

  1. Zu wenig/zu schwache Backlinks
  2. Zu seltene Aktualisierung der Seiteninhalte

Wer beispielsweise sein Blog täglich aktualisiert, das letzte Crawl-Datum liegt aber schon mehrere Tage zurück (siehe Cache Abfrage Tool), sollte mehr themenrelevante Backlinks anschaffen.

Ähnliche Posts, die von Interesse sein könnten:

  1. Der Google Such-Operator 'allintitle'
  2. Google Webmaster Tools mit verlässlicher Backlink-Statistik?
  3. 5 Schritte zu mehr Adsense Dollars
  4. Semantisches Ranking - New School SEO
  5. Der Google Such-Operator ‘allinanchor’

Kommentare

  1. 16. Januar 2007 von Steffen

    Dem kann ich nur voll zustimmen. Google spidert unseren Webkatalog täglich. Um jeden Tag neue Inhalte zu präsentieren, schalten wir auch täglich neue Links frei.

    Das die Suchmaschinen solche Prios setzen finde ich voll nachvollziehbar.

  2. 20. Januar 2007 von thomas

    Das scheint mir O.K. zu sein, denn diejenigen die Ihre Webseiten wöchentlich oder täglich pflegen oder deren Blog gut besucht wird sind interessanter, als eine Seite auf der der letzte Beitrag ein halbes Jahr zurückliegt.
    Übrigens sieht der google bot bei uns regelmäßig alle 5 tage vorbei.

  3. 24. Januar 2007 von Kiwi

    ansich geht es noch einfach, gib einfach das keyword auf das du deine seite hast in google ein … und schau nach auf welcher position du bist :)

    aber ansich hast du mit dem google cache schon recht, je relevanter um so öfter wirst du auch gespydert

  4. 17. Februar 2007 von Holger aus Velbert

    Suchmaschinen haben aus rein technischer Sicht zwei große Herausforderungen und obwohl “BigDaddy” eine deutliche Verschlankung der Architektur und Kostenstruktur gebracht hat (beispielsweise durch die Integration der MediaBots in den normalen index-Prozess) betreibt Google heute die größten Rechenzentren.
    Die Bereitstellung solcher Betriebsleistung kostet mehrer Millionen Dollar/Tag. Der Akualitätsgrad im GCache (und sicher auch die geringe Anzahl Supplementals) sind ein guter Indikator für Authorität.

    Vernachlässigt wird aber meist der Kostenblock Bandbreite!
    Für die Bots von Google & Co ist Bandbreite mindestens ebenso wichtig. In logischer Konsequenz belohnen Google und Yahoo Webseiten, die nach einem conditional Request des Bots “304 - NotModified” mit dem Null-Body versenden durch eine deutlich höhere Besuchrate.

    Hier steckt für den Webmaster der auch seine Systemarchitektur im Griff hat viel Potenzal, denn die viele Content-Management-Systeme implementieren conditional request nicht, sondern senden immer ein “200 - ok” mit dem alten body

  5. 18. Februar 2007 von Webgreenhorn

    @Holger: äusserst interessant! Wie verhält sich Wordpress diesbezüglich?

  6. 18. Februar 2007 von Holger

    Hallo “greenhorn”

    also erst mal möchte ich hier loswerden, das mir Deine Inhalte gut gefallen; vor allem deine Denkweise in diesen SEO-Angelegenheiten…
    …wordpress wirft inzwischen schon eine richtig gute Seitenarchitektur aus und auch in den Systemarchitektur-Themen (wie urlRewriting) wurde ja auch schon nachgelegt, aber conditional requests sind hier nicht implementiert.

    Wir haben vor einem Jahr aus einem Kundenprojekt ein CMS entwickelt, das der Kunde ohne irgendwelche(!) Vorkenntnisse bedienen und dennoch alle legalen(!) OnPage-Kriteren adressieren sollte.
    Aus Sicht der Systemarchitektur war die Umsetzung der conditional requests dann natürlich eine der ersten Aufgaben, denn die macht jeder Webserver in der Standardkonfiguration - zumindest solange man dort statische Seiten abruft.
    Das System ist jetzt seit drei Monaten Online und hat alle realistischen Erwartungen übertroffen, was dazu geführt hat, dass wir jetzt überlegen daraus ein Produkt zu machen…

    … die Implentierung der conditional requests helfen den Bots (nur GBot & Slurp!) Bandbreite zu sparen. Dies führte nachweislich zu einer höheren Crawlrate.
    Ich glaube nicht,dass es sich auf das Ranking auswirkt, aber es gehen definitiv weniger Seiten Supplemental.

    Man muss dazu vielleicht sagen, dass das Implementieren dieser ConditionalRequests bei CM-Systemen nicht gerade trivial ist, denn die Ermittlung des LastModified TimeSpamps für jede Seite erfordert, dass man für jedes änderbare Seitenelement ein eigenes Änderungsdatum mitschreibt.
    Bei artikelbasierten System (wie Wordpress) wäre es aber vergleichsweise einfach ein solches Datum zu ermitteln.

    ps: bei deiner Domain http://www.webgreenhorn.com sind übrigens ein komisches Verhalten:
    Dort liefert dein System bei jedem Request ein Lastmodified-Element aus, füllt es allerdings immer nur mit der aktuellen Uhrzeit…. ….also alle Bots bekommen immer ein 200-OK und nie ein 304-NotModified mit dem “begehrten” Null-Body:-)

  7. 19. Februar 2007 von Webgreenhorn

    @Holger:
    - Wenn Du Dein CMS hier vorstellen möchtest, einfach Link in einen Kommentar posten
    - Mit welchem Tool hast Du das Verhalten von WGH betreffend den Responses überprüft?

  8. 20. Februar 2007 von Holger aus Velbert

    Vielen Dank für das Angebot! Lustiger Weise haben wir mit dem System derzeit 25 Kunden aber keine herzeigbaren Produktinformationen; noch nicht mal einen Link:-)
    Im Augenblick kommen durch Weiterempfehlung immer mehr dazu und wir überlegen ob wir das System nicht langfristig besser in Partnerschaft mit kleinen Internet-Dienstleistern und Werbeagenturen vertreiben sollten, denn für viele von denen wäre das sicher eine interessante Erweiterung/Komplettierung des Produkt- und Dienstleistungsportfolios.
    Zumal das System für kleinere Unternehmen besonders interessant ist: vollwertiges CMS ohne Schulung (readytoUse), keine Projektkosten sondern Festpreis und vor allem natürlich sehr gute Voraussetzung für Reichweite im Internet.
    Wer beispielsweise bei Google nach „China Mangement“ sucht, wird eine internationale Hochschule finden, die nach dem Relaunch vor drei Monaten (mit denselben Texten) doppelte Besucherzahlen abgreift.

    Noch spannender ist das aber für kleine Unternehmen und Gewerbetreibende; so schafft ein Velberter Bauernhof in diesem Jahr seine Bullenzucht ab, weil Google denen inzwischen mehr Kunden aus der gesamten NRW-Region liefert, die einen Kindergeburtstage auf dem Bauernhof feiern wollen. Das Internet ist ein regionales Instrument!
    Die sind jetzt schon bis MItte des Jahres ausgebucht; und die Bäuerin pflegt das System allein.

    Ich könnte noch eine Stunde weiterschreiben; vielleicht hat ja jemand eine guten Gedanken hierzu? freue mich über jede mail!
    Aber mal zurück zum Google Cache…

    Du kannst dieses 200/304 Verhalten vielleicht am einfachststen mit einem http-Proxy nachvollziehen. Wenn Du keinen hast, dann würde ich Dir den Fiddler empfehlen. Mit dem kannst du dann jeden beliebigen Header für einen HttpRequest selbst zusammenbauen und dir HttpResponse (incl. HttpStatusCodes) anschauen. Versuchs mal!

  9. 8. März 2007 von Bäuerin aus Velbert

    Na, da fühle ich mich aber sehr angesprochen! Wenn mich nicht alles täuscht, dann sind wohl wir mit dem Velberter Bauernhof gemeint.
    Leider kann ich die Detail-Ausführungen nicht im einzelnen verstehen, aber was das CMS von Holger betrifft, da kann ich wirklich alles unterschreiben.
    Wir haben uns lange überlegt, ob wir wirklich eine neue Internetseite machen sollten, nachdem unsere alte im Netz “herumgedümpelt” hat. Den Ausschlag hat dann die Verlockung gegeben, unsere Inhalte ohne die Hilfe Externer bearbeiten zu können und das ohne irgendein Vorwissen. (Von einem “CMS” hatte ich vorher noch nie gehört).
    Was dann allerdings passiert ist, das hätten wir nie vermutet - die Internetseite wird bei uns jetzt in der Tat wahrscheinlich bald zu einer Betriebsumstellung führen.

  10. 8. März 2007 von Udo Fox

    Das mit dem Google-Cache und der Aktualität klingt ja alles gut und logisch. Aber manche Such-Ergebnisse widersprechen diesen Überlegungen.

    Bitte mal Folgendes ausprobieren:
    Als Suchbegriff eingeben: Sprachkurs Kirgisisch

    Bei den 21.000 Ergebnissen landet auf Platz 5 ein PDF-Dokument, das sich auf einen Termin im September 2003 bezieht, also inzwischen dreieinhalb Jahre alt ist und sicherlich niemals upgedatet wurde.

    Wie kommt es dass Google dieses veraltete Dokument für so relevant hält und wie lässt sich dieses Ergebnis aus Sicht von Aktualität und Backlinks erklären?

  11. 9. März 2007 von Webgreenhorn

    Einfach: die Domain ist von 1998 und hat mehr als 25′000 Backlinks, was der Domain und allen Unterseiten einen ziemlichen Vertrauensbonus gibt.

  12. 7. Juli 2007 von Christian

    Ab wann bekommt man den Vertrauensbonus? Denke einer meiner Domains ist in der Sandbox. Habe eine mnge Backlinks und werde plötzlich schlecht gelistet. Wer weiss wie sowas sein kann???

  13. 8. Juli 2007 von Webgreenhorn

    @Christian: Du kannst Dir das “Vertrauen” von Google verdienen, indem möglichst alte und themenrelevante Backlinks (die wiederum von ‘trusted’ Domains kommen) auf Deine Seiten zeigen. Die Menge alleine zählt nicht nur, generell geht Qualität (Themenrelevanz und Google’s Vertrauen in die verlinkende Domain) vor.

  14. 8. Juli 2007 von Christian

    Danke, dies wird wohl nur langsam möglich sein. Hast du Erfahrungen ob es sicher ist dass ich aus dieser Misere wieder raus komme? Weiss nicht ob jetzt kämpfen soll, oder abwarten. Oder kann es sein dass ich dort immer bleibe und keine Chance mehr bekomme? Werde jetzt die nächste Zeit versuchen themenrelevante BL zu bekommen. Denke das im Einsteigerjahr ein Fehler, habe es fast nur über BL-Webkataloge versucht.

  15. 21. Oktober 2007 von Michael

    Hallo,

    ich finde über den Google Chache noch eine Version einer alten Webseite vom Juli die schon seit 2 Monaten nicht mehr existiert! Wann wird der Chache denn gelöscht?

  16. 22. Oktober 2007 von Webgreenhorn

    @Michael: Wenn der Googlebot einen toten Link entdeckt, bleibt die Zielseite bis zum nächsten Crawl noch im Cache. Erst dann wird die Seite aus dem Index gelöscht. Man kann es aber mit Hilfe eines Google Tools manuell machen: Webpage removal request tool

  17. 3. November 2007 von Stefan

    Das mit dem Google Tool funktioniert auch? Hast du da Erfahrungen?

  18. 5. November 2007 von Webgreenhorn

    @Stefan: Habe das Tool selbst noch nicht gebraucht, sollte jedoch schon funktionieren, habe noch nichts anderes gehört!

  19. 5. November 2007 von Mani

    Probier ich gleich mal aus :)

  20. 6. Dezember 2007 von Hans

    Ich habe eine Weihnachtseite gemacht. Erstaunlich sie war schon 1 Tag später bei der Suche Google Weihnachtsmarkt und Bautzen zu finden. Hätte nicht gedacht, das es so schnell geht.

  21. 6. Januar 2008 von Stefan

    Ab wann bekommt man den Vertrauensbonus? Denke einer meiner Domains ist in der Sandbox. Habe eine mnge Backlinks und werde plötzlich schlecht gelistet. Wer weiss wie sowas sein kann???

  22. 13. Januar 2008 von Cekay aus Bad Homurg

    Sind deine Backlinks mit Relevanz zum Thema deiner Seite? Die Qualität der Backlinks ist ganz entscheidend für deine Seite.

    Vielleicht hilfts!

  23. 17. Januar 2008 von thomars23 härtle

    habe jetzt 100 backlinks uns bin schon auf pagerank 3 ist dass normal ?
    sind nur webkataloge

  24. 19. März 2008 von Martin

    “habe jetzt 100 backlinks uns bin schon auf pagerank 3 ist dass normal”

    Das ist durchaus normal. 100 Backlinks sind ja auch ne Menge. Kommt natürlich auf die Qualität der Backlinks an.

  25. 3. April 2008 von Vayo

    Wie kann ich denn einen conitional request erzeugen, sodass der bot den last modified header erhält und beachtet?

  26. 28. Mai 2008 von Oliver

    @Martin
    ja, das ist richtig…100 Backlinks sind nicht 100 Backlinks… Habe schon festgestellt, dass 10 “richtige” Backlinks mehr wert sind als 100 “falsche”

    Je themenrelevanter desto besser! Und dann natürlich mit den richtigen Keys verlinkt!

Kommentar schreiben

XHTML: <a href=""></a>   <em></em>   <b></b>