Pół internetu używa Unicode, a my co?

decode unicode poster

Według Google niemal 50% stron w internecie używa kodowania znaków w unikodzie. Dokładna liczba może być nieco inna, bo brane pod uwagę są strony indeksowane przez Google. Wykres pokazuje bardzo szybki wzrost od jakichś czterech lat, a ponieważ rozwój technologii postępuje wykładniczo, już za rok tylko margines będzie używał innego kodowania ;)

To i tak za mało, właśnie brak unikodu nie pozwala mi zamówić np. książek w Amazonie (gdzie króluje ISO-8859-1) na własne nazwisko, literka ź nijak nie chce się prześlizgnąć przez ichnie formularze ;) Nie mówiąc już o tym, że wyszukanie czegokolwiek co ma w nazwie znaczki nie występujące w Latin-1 nie jest możliwe. Z pierwszej dwudziestki najbardziej popularnych stron wg Alexy, poza chińskimi, właśnie tylko Amazon nie używa Unicode. Google, zarówno na google.com jak i na stronach w  językach lokalnych od dawna już używa unikodu, również do wyszukiwania – wszelkie informacje są najpierw konwertowane z innych stron kodowych do Unicode.

A jak jest u nas? Postanowiłem to sprawdzić. I niestety „polski” internet nie wygląda w tym porównaniu najlepiej. Pod uwagę wziąłem strony z pierwszej dwudziestki zestawienia Alexa, wspomagane wynikami Megapanelu z listopada zeszłego roku, plus własny wybór bardziej znanych witryn. Nie jestem w stanie policzyć jak to wygląda wg zasięgu, czy ilości stron, ale już na pierwszy rzut oka widać, że większość stron i największych portali unikodu nie używa.

Polskie strony używające Unicode

początkowa kolejność wg Alexa, potem wg własnego uznania ;)

  • Nasza klasa
  • Allegro
  • Demotywatory
  • O2 (ale już należący do nich Pudelek nie)
  • Wrzuta
  • FilmWeb
  • OtoMoto
  • Panorama Firm
  • Ceneo
  • Wykop
  • Blip
  • empik.com

również lokalne Google, Microsoft, Apple, Facebook, YouTube, Wikipedia itp.

A teraz niechlubna ;) lista polskich stron nie używających Unicode

Portale, serwisy społecznościowe itp.

  • Onet
  • Wirtualna polska
  • Interia
  • Gazeta.pl
  • Money.pl
  • Grono

Banki internetowe

  • PKO BP (również Inteligo)
  • Citi Handlowy
  • Bank BPH
  • Millenium
  • Alior Bank
  • Kredyt Bank – tu kuriozum, jedyna większa strona, jaką znalazłem, używająca kodowania Windows-1250! Strony banku internetowego mają już na szczęście ISO 8859-2, ale strony informacyjne CP-1250.

Sklepy, porównywarki itp.

  • merlin
  • agito.pl
  • skąpiec

Jak widać ta lista jest dość obszerna. W przypadku portali informacyjnych kodowanie ma może mniejsze znaczenie, znaki spoza zakresu można zawsze przedstawić za pomocą encji, ale już wyszukiwanie niestety jest znacznie utrudnione. Bankom też to w sumie nie przeszkadza, choć powinny być raczej bardziej innowacyjne. Natomiast już w przypadku sklepów, szczególnie oferujących artykuły z obcojęzycznymi nazwami/tytułami, a także porównywarek cen brak Unicode jest poważnym naruszeniem użyteczności, utrudniając, lub wręcz uniemożliwiając wyszukanie nazw zawierających obce znaki spoza zakresu.

A blogi?

Tu jest różnie. Bloger jak całe Google ma Unicode, podobnie WordPress.com, jak również blogi na własnym hostingu napędzane WordPressem – już od dawna domyślnym kodowanie zarówno w bazy jak i zaplecza bloga jest Unicode. Niektóre starsze instalacje, szczególnie na niepewnych hostingach mogą czasem być w innym kodowaniu.

Należący do Agory blox, jak cała reszta niestety ma kodowanie ISO 8859-2, to samo blogi na Onecie i (też onetowy) Blog.pl.  Zaawansowany edytor bloxa pozwala na używanie dowolnych znaków, również spoza ISO, wstawiając je właśnie jako encje, ale spróbujcie potem wyszukać jakiś egzotyczny tekst w jeszcze bardziej egzotycznym języku ;) Jogger i Salon24 używają Unicode.

Na szczęście już prawie nikt nie używa CP-1250, co jeszcze kilka lat temu było przekleństwem, szczególnie Usenetu, bo przeglądarki internetowe zawsze sobie z tym radziły, pod warunkiem zadeklarowania kodowania zgodnie z naprawdę użytym.

19 myśli na temat “Pół internetu używa Unicode, a my co?”

  1. Pisanie „niechlubne” jest pomyłką. Polska norma to latin2 (iso-8859-2) i nie widzę jakiejś dramatycznej przewagi utf8 nad powyższym formatem. Oczywiście, że utf8 jest szerszym zestawem znaków i od kilku lat nie używam innego kodowania (w nowych projektach), to wcale nie uważam, żeby strony w innym formatowaniu traktować gorzej.

    Poza wszystkim trzeba pamiętać o gargantuicznym koszcie konwersji starszych i wielkich serwisów, które składają się z dziesiątków, jak nie setek różnych, często istniejących na różnych serwerach i napisanych z użyciem różnych technologii.

    ps. dlaczego nie ma trackbacka?

    1. Toteż napisałem „niechlubne” z uśmieszkiem ;) i wcale nie zamierzam ich traktować gorzej, przynajmniej do momentu, kiedy nie zabraknie mi jakiegoś znaczka.
      Pewnie że polski standard Latin-2 jest w zasadzi wystarczający na polskich stronach, ale czasem to za mało, szczególnie brak widać w formularzach.

      ps trackback jest włączony, do tego wpisu: http://bloggerpl.com/2010/02/pol-internetu-uzywa-unicode-a-my-co/trackback – w theme zabrakło zdefiniowanego linka i nie zwróciłem uwagi. Jakoś mi go dotąd nie brakowało.

  2. Jestem programistą aplikacji webowych i we wszystkich projektach (już od kilku lat) używam UTF-8. Po prostu ;)

    Choć muszę to oddać latin2, że do niektórych zastosowań jest lepszy – choćby w bazie danych. Jeżeli wiadomo, że zastosowanie wymaga tylko znaczków latin2, to używanie UTF-a jest bluźnierstwem i zarzynaniem bazy danych ;)

    1. Z tego, co widzę blogger jest kodowany w UTF-8.

      Ja sam też jestem zwolennikiem tego rodzaju kodowania i jest to na pewno przyszłościowe rozwiązanie, ale wiele stron (także tych nowych) opiera się w dalszym ciągu na iso-8859-2. Zgodzę się tu jednak z Marcinem (1 post), gdyż ja również nie widzę powodu dla którego strony w innym formatowaniu miałoby się traktować gorzej.

  3. przechodzenie na utf-8 będzie postępowało. Żadne nowo-powstające serwisy nie korzystają chyba z innych kodowań.

  4. Ja osobiście tworzę serwisu jedynie w oparciu o UTF. Myślę, że obecnie coraz więcej webmasterów będzie tak czynić.

  5. Wow… ja już chyba dwa lata korzystam z UTF-8. Ba! Doszedłem do etapu nazywania go „wuteef-osiem” ;-) Używam tego kodowania z dwóch powodów – Google zaleca a dwa łatwiejszy do zapamiętania jest niż ISO-551159-2 ;-)

  6. Z tym kodowaniem jest tak samo jak z html i xhtml, czyli większość się przestawi i tylko nieliczni będą używać ISOlatek.

  7. Ostatnio na wszystkich moich stronach przeszedłem na UTF-8, gdyż miałem duże problemy z ISO 8859-2. Długo nie wiedziałem co jest grane, gdyż nie wyświetlała się litera ź oraz ś. Po zmianie na UTF-8 wszystko było OK. Możliwe, że było to spowodowane wyborem niewłaściwego kodowania w edytorze HTML. Nie zmienia to jednak faktu, że w UTF-8 problem znikł.

  8. Problem kodowania właściwie zanika, ponieważ budowa obacnych stron jest realizowana w oparciu o systemy zarządzania treścią, które domyślnie stosują kodowanie unicode.

Dodaj komentarz