Arithmos
Erfahrener Benutzer
- Registriert
- 06. Sep. 2007
- Beiträge
- 3.929
Ich habe aus ca. 2,5 Mio. de.wikipedia.org-Seiten (ca. 40 GB Daten) eine Liste mit ca. 6,5 Mio. verschiedenen Keywords erstellt.
Die Liste ist utf-8 codiert und enthält auch Wörter mit deutschen Umlauten und ß.
Wörter mit mehr als 2 gleichen Vokalen oder mehr als 3 gleichen Konsonanten in Folge sind schon entfernt, ebenso Wörter mit mehr als 64 Zeichen.
Ansonsten enthält die Liste eben jedes unterschiedliche Wort, das auf diesen 2,5 Mio de.wikipedia.org-Seiten vorkommt. Also auch jede Menge Merkwürdigkeiten, Typos, Markennamen, Fremdwörter, Wortfragmente usw.
Dennoch sicherlich hilfreich für jeden, der eine umfangreiche Keyword-Datenbank aufbauen will.
Die Liste ist ungezippt ca. 80 MB groß.
Besteht Interesse und zu welchem Preis?
Anfragen gerne auch per PM.
Gruß
Arithmos
Die Liste ist utf-8 codiert und enthält auch Wörter mit deutschen Umlauten und ß.
Wörter mit mehr als 2 gleichen Vokalen oder mehr als 3 gleichen Konsonanten in Folge sind schon entfernt, ebenso Wörter mit mehr als 64 Zeichen.
Ansonsten enthält die Liste eben jedes unterschiedliche Wort, das auf diesen 2,5 Mio de.wikipedia.org-Seiten vorkommt. Also auch jede Menge Merkwürdigkeiten, Typos, Markennamen, Fremdwörter, Wortfragmente usw.
Dennoch sicherlich hilfreich für jeden, der eine umfangreiche Keyword-Datenbank aufbauen will.
Die Liste ist ungezippt ca. 80 MB groß.
Besteht Interesse und zu welchem Preis?
Anfragen gerne auch per PM.
Gruß
Arithmos