www.mucker.at http://www.mucker.at Helmut Mucker de Über's Hashing http://www.mucker.at/2008//07#hashing_pl <!-- amazon-search: Algorithmen Datenstrukturen --> <!-- amazon-mode: books --> <p> Hashing ist eine Möglichkeit zur Implementierung von so genannten DICTIONARIES, dies sind Datentypen zur Darstellung von Mengen, welche die Operationen INSERT, DELETE und MEMBER zu Verfügung stellen. <!-- amazon_textlink:3897211416 --> <br><br> <!-- asin:3897211416 --> Die Grundidee des "Hashverfahrens" ist, aus dem Wert eines zu speichernden Mengenelementes seine Adresse im Speicher zu berechnen. Den Speicher der Mengenelemente bezeichnen wir als "Behälter" oder auch "Buckets" und nummeriert ihn zum Beispiel mit B(0) bis B(m-1). Der Wertebereich W der Mengenelemente kann beliebig groß sein, im Normalfall ist die Mächtigkeit von W sehr viel größer als m. <br><br> Mathematisch betrachtet ist eine so genannte "Hashfunktion" eine totale Abbildung <br><br> hash: W -> {0, ..., m-1} <br><br> W könnte zum Beispiel die Menge aller Zeichenketten mit einer Länge kleiner 20 sein. <br><br> Ein Beispiel: Wir wollen die sieben Wochentage auf 10 Buckets verteilen. Als Hashfunktion verwenden wir die Summe der ASCII-Werte der ersten drei Zeichen eines Wochentages modulo 10, wenn also ord('a') = 97, ord('b') = 98 ist, dann ist zum Beispiel <br><br> hash('Montag') = (ord('M') + ord('o') + ord ('n')) mod 10 = 1. <br><br> Mit dem folgenden kleinen Perl-Script ... <pre> #!/usr/bin/perl use strict; use warnings; my @wochentag = ( 'Montag', 'Dienstag', 'Mittwoch', 'Donnerstag', 'Freitag', 'Samstag', 'Sonntag', ); my $MAXBUCKET = 9; my @bucket; # initialisiere Buckets foreach (0..$MAXBUCKET) {$bucket[$_] = '';} foreach (@wochentag) { # Wochentag einfuegen, bei Kollision # anhaengen $bucket[&hash($_)] .= " $_"; } foreach (0 .. $#bucket) { print "bucket[$_] = $bucket[$_]\n"; } sub hash { my $string = $_[0]; my $hash = 0; foreach (0..2) {$hash += ord(substr($string,$_));} return $hash % ($MAXBUCKET+1); } </pre> ... erhalten wir als Ergebnis: <pre> bucket[0] = bucket[1] = Montag Mittwoch Donnerstag Samstag bucket[2] = bucket[3] = bucket[4] = Dienstag bucket[5] = bucket[6] = Freitag bucket[7] = Sonntag bucket[8] = bucket[9] = </pre> Wir sehen also, dass mit unserer Hashfunktion nur eine sehr schlechte Verteilung auf unsere 10 "Buckets" erreicht wird. Es kommt zu Kollisionen (Bucket 1). <br><br> <!-- amazon_textlink:3827410290 --> <br><br> <!-- asin:3827410290 --> Die Hashverfahren unterscheiden sich in der Behandlung dieser Kollisionen. Beim so genannten "Offenen Hashing" nimmt man an, das jeder Bucket beliebig viele Schlüssel aufnehmen kann (Wie in unserem ersten Beispiel). Beim "Geschlossenen Hashing" kann jeder Behälter nur eine geringe Anzahl von Schlüsseln aufnehmen, im Normalfall einen. <br><br> Wenn man nun beim Einfügen auf einen bereits belegten Behälter stößt, muss man den nächsten unbelegten suchen. Dieses Verfahren nennt man "Rehashing" oder auch "Offene Adressierung". <br><br> Die einfachste Art ist im folgenden Script gezeigt: Man betrachtet sukzessive die auf den berechneten Behälter folgenden, bis man auf einen freien gelangt. <pre> #!/usr/bin/perl use strict; use warnings; my @wochentag = ( 'Montag', 'Dienstag', 'Mittwoch', 'Donnerstag', 'Freitag', 'Samstag', 'Sonntag', ); my $MAXBUCKET = 9; my @bucket; # initialisiere Buckets foreach (0..$MAXBUCKET) {$bucket[$_] = '';} foreach (@wochentag) { # Naechster Bucket my $next = &hash($_); # Solange kein freier Bucket, versuche # den naechsten while ($bucket[$next] ne '') { $next = ($next + 1) % ($MAXBUCKET + 1) } $bucket[$next] = " $_"; } foreach (0 .. $#bucket) { print "bucket[$_] = $bucket[$_]\n"; } sub hash { my $string = $_[0]; my $hash = 0; foreach (0..2) {$hash += ord(substr($string,$_));} return $hash % ($MAXBUCKET+1); } </pre> Damit erhalten wir die Ausgabe <pre> bucket[0] = Donnerstag bucket[1] = Samstag bucket[2] = bucket[3] = bucket[4] = Dienstag bucket[5] = Freitag bucket[6] = Sonntag bucket[7] = bucket[8] = Montag bucket[9] = Mittwoch </pre> Dies sieht bereits besser aus. <br><br> [FORTSETZUNG FOLGT] </p>