xn--bcher-kva.de oder was hat das mit Bücher.de zu tun? Die Geschichte von Punycode bzw. IDN, also Internationale Domain Namen.


Seit einigen Jahren ist es bereits möglich Domainnamen mit Umlauten wie äöü zu erhalten. Fast jeder hat sich seither damit aber zurückgehalten, weil viele Programme damit nicht umgehen können.

Aber in letzter Zeit scheinen es mehr Domains zu werden und wenn es nur darum geht, diese zusätzlich zu benutzen, um am Ende wieder auf die Hauptdomain weiterzuleiten. Wer zum heutigen Tag, als dieser Blogeintrag geschrieben wurde, www.bücher.de eingibt, der landet bei www.buecher.de. Soweit ist alles paletti.

Wer nun aber hin und wieder irgendwelche LOG-Dateien auswertet oder untersucht, bzw. mysteriöse Problemfälle zu ergründen versucht, der stolpert irgendwann über das Kürzel xn--.

Die Erklärung dafür ist recht simpel. Die komplette Internetinfrastruktur stammt aus der 8 bzw. noch 7-Bit Computersteinzeit. Als man die DNS-Infrastruktur aufbaute, gab es bekanntlich ja nur die USA und die kennen nun mal nur A-Z und die Zahlen von 0-9. Als man Ende der 80iger Jahre Unicode einführte, war es aber bereits zu spät alle DNS-Systeme umzustellen und keiner wusste, ob Unicode sich jemals durchsetzen würde, denn schließlich verschlang es Unmengen an Bytes.

Wenn man heute das Internet nochmal neu entwickeln könnte, würde man natürlich von Anbeginn Unicode verwenden. Aber dafür ist es zu spät. Also haben clevere Leute sich mit einem Kniff beholfen. Es entstand der sogenannte Punycode der im RFC3492 spezifiziert wurde, ein Algorithmus, welcher dafür sorgt dass zwischen ASCII und Unicode Zeichen umgesetzt werden können, ohne dass Informationen verloren gehen. Damit man weiß, dass es sich um einen Punycode behandelten Buchstaben handelt, wird einfach ein Marker davor gesetzt. Der Marker ist eben dieses Kürzel xn--. In RFC3490 als ACE prefix bezeichnet. Da dieses Kürzel sonst nicht verwendet wird und vorkam, konnte man immer eindeutig sagen, wann die ASCII-Zeichen in Unicode gewandelt werden müssen. RFC3490 betitelt mit “Internationalizing of Domain Names for Applications” führte zu der Abkürzung IDNA. Da das RFC 2003 veröffentlicht wurde, sprach man später von IDNA2003. Im Jahr 2008 entdeckte man auf einmal, dass es auch Sprachen gibt, welche von rechts nach links geschrieben werden und es gab noch andere Ungereimtheiten. Diese wurden in RFC5890 behandelt, welches dann als IDNA2008 bezeichnet wurde.

So also zurück wieder zu www.bücher.de. Wer nun wissen möchte, wie bücher.de konvertiert aussieht, der kann ganz einfach Onlinedienste dafür verwenden, z. B. http://www.charset.org/punycode.php?encoded=xn--bcher-kva.de&decode=Punycode+to+normal+text. Bei

Bücher.de

kommt also

xn--bcher-kva.de

bei raus. Interessant ist auch die Variante mit Subdomain http://www.charset.org/punycode.php?decoded=www.b%C3%BCcher.de&encode=Normal+text+to+Punycode#results:

www.bücher.de

wird zu

http://www.xn--bcher-kva.de

Es wird also einfach das www. davor beibehalten.

Zu welchen Verwicklungen diese Dinge führen können, werden wir in nächster Zeit im einen oder anderen Blogbeitrag wieder finden.

Eine Antwort to “xn--bcher-kva.de oder was hat das mit Bücher.de zu tun? Die Geschichte von Punycode bzw. IDN, also Internationale Domain Namen.”

  1. Quirel Says:

    unter Linux kann man mit idn nach sudo apt-get install idn den punycode erzeugen lassen. Siehe z. B.: http://wellisolutions.de/ubuntu/umlaut-domains-abfragen-und-einrichten/

    und noch mehr zu Punycode und NSLookup: https://lists.isc.org/pipermail/bind-users/2009-December/078403.html

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s


%d Bloggern gefällt das: