Welcome!

By registering with us, you'll be able to discuss, share and private message with other members of our community.

SignUp Now!

Domainbezogene Aussagen im Google Patent "Information retrieval based on historical"

Quaderno

Gesperrt
Registriert
12. Juni 2002
Beiträge
2.719
Reaktionspunkte
7
Domains im Google-Patent "Information retrieval based on historical data"

In Anbetracht des schlechten Wetters draussen hier mal etwas anspruchsvolle Lektüre für das Wochenende:

Am 31. März wurde von Google unter der Nummer 20050071741 ein Patent mit dem Titel "Information retrieval based on historical data" eingereicht. Der Volltext kann eigesehen werden unter folgender Adresse:

http://appft1.uspto.gov/netacgi/nph...&s1=20050071741&OS=20050071741&RS=20050071741

Das ganze Ding ist recht umfangreich, enthält aber neben vielen Nebelbomben durchaus ein paar Passagen, die für die zukünftige Gewichtung von Domainnamen relevant sein werden. Ob das alles auch umgesetzt wird weiss natürlich niemand, aber interessant ist es allemal und bei $500 Mio Entwicklungsbudget wird sicher noch die eine oder andere Innovation zu erwarten sein.

Besonders eingegangen wird in der Application neben der Identifizierung von Doorway-Domains auch auf die vom Registranten bezahlte Laufzeit von Domains als Rankingkriterium sowie auf Inhalte und Veränderungshäufigkeit von Nameserver- und Kontaktdaten. In dem gesamtem Dokument stecken noch viele interessante Ideen (z.B. zur Identifizierung und Bewertung von Linknetzwerken), aber wer will kann ja die Quelle nachlesen.

Ich zitiere mal den für Domains besonders relevanten Teil ab Par. 0096:

[0096] Domain-Related Information

[0097] According to an implementation consistent with the principles of the invention, information relating to a domain associated with a document may be used to generate (or alter) a score associated with the document. For example, search engine 125 may monitor information relating to how a document is hosted within a computer network (e.g., the Internet, an intranet or other network or database of documents) and use this information to score the document.

[0098] Individuals who attempt to deceive (spam) search engines often use throwaway or "doorway" domains and attempt to obtain as much traffic as possible before being caught. Information regarding the legitimacy of the domains may be used by search engine 125 when scoring the documents associated with these domains.

[0099] Certain signals may be used to distinguish between illegitimate and legitimate domains. For example, domains can be renewed up to a period of 10 years. Valuable (legitimate) domains are often paid for several years in advance, while doorway (illegitimate) domains rarely are used for more than a year. Therefore, the date when a domain expires in the future can be used as a factor in predicting the legitimacy of a domain and, thus, the documents associated therewith.

[0100] Also, or alternatively, the domain name server (DNS) record for a domain may be monitored to predict whether a domain is legitimate. The DNS record contains details of who registered the domain, administrative and technical addresses, and the addresses of name servers (i.e., servers that resolve the domain name into an IP address). By analyzing this data over time for a domain, illegitimate domains may be identified. For instance, search engine 125 may monitor whether physically correct address information exists over a period of time, whether contact information for the domain changes relatively often, whether there is a relatively high number of changes between different name servers and hosting companies, etc. In one implementation, a list of known-bad contact information, name servers, and/or IP addresses may be identified, stored, and used in predicting the legitimacy of a domain and, thus, the documents associated therewith.

[0101] Also, or alternatively, the age, or other information, regarding a name server associated with a domain may be used to predict the legitimacy of the domain. A "good" name server may have a mix of different domains from different registrars and have a history of hosting those domains, while a "bad" name server might host mainly pornography or doorway domains, domains with commercial words (a common indicator of spam), or primarily bulk domains from a single registrar, or might be brand new. The newness of a name server might not automatically be a negative factor in determining the legitimacy of the associated domain, but in combination with other factors, such as ones described herein, it could be.

[0102] In summary, search engine 125 may generate (or alter) a score associated with a document based, at least in part, on information relating to a legitimacy of a domain associated with the document.

Schönes Wochenende,
Holger
 
Hallo Holger,

netter Artikel, aber einige Ansätze halte ich zumindest im .de-Bereich für nicht umsetzbar.

Das ist wieder typisch amis, denken nur an cno Domains. Slbst da halte ich das Argument der Vorauszahlungen für sehr weit an den Haaren herbeigezogen. Fast alle Registrare die ich kenne bieten automatische 1-Jahres Erneuerungen an...

Ob die automatisierte Verarbeitung von Kontakdaten überhaupt zulässig ist? Bei .de bestimmt nicht.

Vielleicht ist da nur viel Nebel - um den eigentlichen Kern zu verdecken. Auf jedenfall fällt das hier unter US-Patentwahnsinn, zum Glück kann man sowas in der EU noch nicht patentieren lassen.

Grüsse

Christoph
 
Hallo Holger,

Danke für den Linktipp. Tatsächlich ist viel "Nebel" drin, aber das war wohl Absicht, da es den RAen von Google defensiven Interpretationsspielraum bietet und gleichzeitig den Spammern auch keine einfache "road map" liefert. Ich denke jedoch auch, daß wertvolle und richtungsweisende "Algotipps" eindeutig enthalten sind - insbesondere die "back-end Analyse" bzw. (u.a.!) die Analyse der Domain-Registrationen selbst. Mit ein bisschen Fantasie kann man so Einiges daraus schließen. Ich meine auch, daß diese "patentierte Methode" teilweise bereits im Einsatz ist. Google dürfte das "back end" sehr bald mehr und mehr interessieren, weil ihrem "front end" (also ihr historischer G-Index selbst) einfach kritische Daten fehlen. Ein Grund auch meine ich, warum Google gerade die Tracking-Firma Urchin still und leise aufgekauft hat. Zwei meiner Projekte fahren längst mit Urchin und Tante G dürfte die Projekte nun komplett ("front" und "back") durchleuchten können. Vor ein paar Tagen bekam ich Werbepost von einem meiner Hoster, Hostway. Nicht schlecht staunte ich, als ich das Hostway Logo und Google Logo prominent gemeinsam auf dem Umschlag sah (AdWords Promo). Hostway, wohl einer der größten Hoster der Welt, fährt mit dem Urchin-Tracker. Das "back end" bis ins letzte Detail liegt Tante G also bereits (u.a.) bei allen Hostway-gehosteten Projekten zu Füßen. Pureres Gold gibt es nicht. Da Urchin auch ein sehr guter Tracker ist, hätten sicherlich viele andere Hoster nichts dagegen, diesen Tracker vielleicht auch kostenlos ihren Kunden anzubieten. Der "neue kostenlose Google-Tracker"?! Perfekt! ;)

Grüße

John
Suchmaschinen.org
 
Zurück
Oben