Quaderno
Gesperrt
- Registriert
- 12. Juni 2002
- Beiträge
- 2.719
Domains im Google-Patent "Information retrieval based on historical data"
In Anbetracht des schlechten Wetters draussen hier mal etwas anspruchsvolle Lektüre für das Wochenende:
Am 31. März wurde von Google unter der Nummer 20050071741 ein Patent mit dem Titel "Information retrieval based on historical data" eingereicht. Der Volltext kann eigesehen werden unter folgender Adresse:
http://appft1.uspto.gov/netacgi/nph...&s1=20050071741&OS=20050071741&RS=20050071741
Das ganze Ding ist recht umfangreich, enthält aber neben vielen Nebelbomben durchaus ein paar Passagen, die für die zukünftige Gewichtung von Domainnamen relevant sein werden. Ob das alles auch umgesetzt wird weiss natürlich niemand, aber interessant ist es allemal und bei $500 Mio Entwicklungsbudget wird sicher noch die eine oder andere Innovation zu erwarten sein.
Besonders eingegangen wird in der Application neben der Identifizierung von Doorway-Domains auch auf die vom Registranten bezahlte Laufzeit von Domains als Rankingkriterium sowie auf Inhalte und Veränderungshäufigkeit von Nameserver- und Kontaktdaten. In dem gesamtem Dokument stecken noch viele interessante Ideen (z.B. zur Identifizierung und Bewertung von Linknetzwerken), aber wer will kann ja die Quelle nachlesen.
Ich zitiere mal den für Domains besonders relevanten Teil ab Par. 0096:
Schönes Wochenende,
Holger
In Anbetracht des schlechten Wetters draussen hier mal etwas anspruchsvolle Lektüre für das Wochenende:
Am 31. März wurde von Google unter der Nummer 20050071741 ein Patent mit dem Titel "Information retrieval based on historical data" eingereicht. Der Volltext kann eigesehen werden unter folgender Adresse:
http://appft1.uspto.gov/netacgi/nph...&s1=20050071741&OS=20050071741&RS=20050071741
Das ganze Ding ist recht umfangreich, enthält aber neben vielen Nebelbomben durchaus ein paar Passagen, die für die zukünftige Gewichtung von Domainnamen relevant sein werden. Ob das alles auch umgesetzt wird weiss natürlich niemand, aber interessant ist es allemal und bei $500 Mio Entwicklungsbudget wird sicher noch die eine oder andere Innovation zu erwarten sein.
Besonders eingegangen wird in der Application neben der Identifizierung von Doorway-Domains auch auf die vom Registranten bezahlte Laufzeit von Domains als Rankingkriterium sowie auf Inhalte und Veränderungshäufigkeit von Nameserver- und Kontaktdaten. In dem gesamtem Dokument stecken noch viele interessante Ideen (z.B. zur Identifizierung und Bewertung von Linknetzwerken), aber wer will kann ja die Quelle nachlesen.
Ich zitiere mal den für Domains besonders relevanten Teil ab Par. 0096:
[0096] Domain-Related Information
[0097] According to an implementation consistent with the principles of the invention, information relating to a domain associated with a document may be used to generate (or alter) a score associated with the document. For example, search engine 125 may monitor information relating to how a document is hosted within a computer network (e.g., the Internet, an intranet or other network or database of documents) and use this information to score the document.
[0098] Individuals who attempt to deceive (spam) search engines often use throwaway or "doorway" domains and attempt to obtain as much traffic as possible before being caught. Information regarding the legitimacy of the domains may be used by search engine 125 when scoring the documents associated with these domains.
[0099] Certain signals may be used to distinguish between illegitimate and legitimate domains. For example, domains can be renewed up to a period of 10 years. Valuable (legitimate) domains are often paid for several years in advance, while doorway (illegitimate) domains rarely are used for more than a year. Therefore, the date when a domain expires in the future can be used as a factor in predicting the legitimacy of a domain and, thus, the documents associated therewith.
[0100] Also, or alternatively, the domain name server (DNS) record for a domain may be monitored to predict whether a domain is legitimate. The DNS record contains details of who registered the domain, administrative and technical addresses, and the addresses of name servers (i.e., servers that resolve the domain name into an IP address). By analyzing this data over time for a domain, illegitimate domains may be identified. For instance, search engine 125 may monitor whether physically correct address information exists over a period of time, whether contact information for the domain changes relatively often, whether there is a relatively high number of changes between different name servers and hosting companies, etc. In one implementation, a list of known-bad contact information, name servers, and/or IP addresses may be identified, stored, and used in predicting the legitimacy of a domain and, thus, the documents associated therewith.
[0101] Also, or alternatively, the age, or other information, regarding a name server associated with a domain may be used to predict the legitimacy of the domain. A "good" name server may have a mix of different domains from different registrars and have a history of hosting those domains, while a "bad" name server might host mainly pornography or doorway domains, domains with commercial words (a common indicator of spam), or primarily bulk domains from a single registrar, or might be brand new. The newness of a name server might not automatically be a negative factor in determining the legitimacy of the associated domain, but in combination with other factors, such as ones described herein, it could be.
[0102] In summary, search engine 125 may generate (or alter) a score associated with a document based, at least in part, on information relating to a legitimacy of a domain associated with the document.
Schönes Wochenende,
Holger