Pół internetu używa Unicode, a my co?
Według Google niemal 50% stron w internecie używa kodowania znaków w unikodzie. Dokładna liczba może być nieco inna, bo brane pod uwagę są strony indeksowane przez Google. Wykres pokazuje bardzo szybki wzrost od jakichś czterech lat, a ponieważ rozwój technologii postępuje wykładniczo, już za rok tylko margines będzie używał innego kodowania ;)
To i tak za mało, właśnie brak unikodu nie pozwala mi zamówić np. książek w Amazonie (gdzie króluje ISO-8859-1) na własne nazwisko, literka ź nijak nie chce się prześlizgnąć przez ichnie formularze ;) Nie mówiąc już o tym, że wyszukanie czegokolwiek co ma w nazwie znaczki nie występujące w Latin-1 nie jest możliwe. Z pierwszej dwudziestki najbardziej popularnych stron wg Alexy, poza chińskimi, właśnie tylko Amazon nie używa Unicode. Google, zarówno na google.com jak i na stronach w językach lokalnych od dawna już używa unikodu, również do wyszukiwania – wszelkie informacje są najpierw konwertowane z innych stron kodowych do Unicode.
A jak jest u nas? Postanowiłem to sprawdzić. I niestety “polski” internet nie wygląda w tym porównaniu najlepiej. Pod uwagę wziąłem strony z pierwszej dwudziestki zestawienia Alexa, wspomagane wynikami Megapanelu z listopada zeszłego roku, plus własny wybór bardziej znanych witryn. Nie jestem w stanie policzyć jak to wygląda wg zasięgu, czy ilości stron, ale już na pierwszy rzut oka widać, że większość stron i największych portali unikodu nie używa.
Polskie strony używające Unicode
początkowa kolejność wg Alexa, potem wg własnego uznania ;)
- Nasza klasa
- Allegro
- Demotywatory
- O2 (ale już należący do nich Pudelek nie)
- Wrzuta
- FilmWeb
- OtoMoto
- Panorama Firm
- Ceneo
- Wykop
- Blip
- empik.com
również lokalne Google, Microsoft, Apple, Facebook, YouTube, Wikipedia itp.
A teraz niechlubna ;) lista polskich stron nie używających Unicode
Portale, serwisy społecznościowe itp.
- Onet
- Wirtualna polska
- Interia
- Gazeta.pl
- Money.pl
- Grono
Banki internetowe
- PKO BP (również Inteligo)
- Citi Handlowy
- Bank BPH
- Millenium
- Alior Bank
- Kredyt Bank – tu kuriozum, jedyna większa strona, jaką znalazłem, używająca kodowania Windows-1250! Strony banku internetowego mają już na szczęście ISO 8859-2, ale strony informacyjne CP-1250.
Sklepy, porównywarki itp.
- merlin
- agito.pl
- skąpiec
Jak widać ta lista jest dość obszerna. W przypadku portali informacyjnych kodowanie ma może mniejsze znaczenie, znaki spoza zakresu można zawsze przedstawić za pomocą encji, ale już wyszukiwanie niestety jest znacznie utrudnione. Bankom też to w sumie nie przeszkadza, choć powinny być raczej bardziej innowacyjne. Natomiast już w przypadku sklepów, szczególnie oferujących artykuły z obcojęzycznymi nazwami/tytułami, a także porównywarek cen brak Unicode jest poważnym naruszeniem użyteczności, utrudniając, lub wręcz uniemożliwiając wyszukanie nazw zawierających obce znaki spoza zakresu.
A blogi?
Tu jest różnie. Bloger jak całe Google ma Unicode, podobnie WordPress.com, jak również blogi na własnym hostingu napędzane WordPressem – już od dawna domyślnym kodowanie zarówno w bazy jak i zaplecza bloga jest Unicode. Niektóre starsze instalacje, szczególnie na niepewnych hostingach mogą czasem być w innym kodowaniu.
Należący do Agory blox, jak cała reszta niestety ma kodowanie ISO 8859-2, to samo blogi na Onecie i (też onetowy) Blog.pl. Zaawansowany edytor bloxa pozwala na używanie dowolnych znaków, również spoza ISO, wstawiając je właśnie jako encje, ale spróbujcie potem wyszukać jakiś egzotyczny tekst w jeszcze bardziej egzotycznym języku ;) Jogger i Salon24 używają Unicode.
Na szczęście już prawie nikt nie używa CP-1250, co jeszcze kilka lat temu było przekleństwem, szczególnie Usenetu, bo przeglądarki internetowe zawsze sobie z tym radziły, pod warunkiem zadeklarowania kodowania zgodnie z naprawdę użytym.





Komentarze (20)
4 lut 2010, 11:36
Pisanie “niechlubne” jest pomyłką. Polska norma to latin2 (iso-8859-2) i nie widzę jakiejś dramatycznej przewagi utf8 nad powyższym formatem. Oczywiście, że utf8 jest szerszym zestawem znaków i od kilku lat nie używam innego kodowania (w nowych projektach), to wcale nie uważam, żeby strony w innym formatowaniu traktować gorzej.
Poza wszystkim trzeba pamiętać o gargantuicznym koszcie konwersji starszych i wielkich serwisów, które składają się z dziesiątków, jak nie setek różnych, często istniejących na różnych serwerach i napisanych z użyciem różnych technologii.
ps. dlaczego nie ma trackbacka?
4 lut 2010, 13:28
Toteż napisałem “niechlubne” z uśmieszkiem ;) i wcale nie zamierzam ich traktować gorzej, przynajmniej do momentu, kiedy nie zabraknie mi jakiegoś znaczka.
Pewnie że polski standard Latin-2 jest w zasadzi wystarczający na polskich stronach, ale czasem to za mało, szczególnie brak widać w formularzach.
ps trackback jest włączony, do tego wpisu: http://bloggerpl.com/2010/02/pol-internetu-uzywa-unicode-a-my-co/trackback – w theme zabrakło zdefiniowanego linka i nie zwróciłem uwagi. Jakoś mi go dotąd nie brakowało.
5 lut 2010, 23:16
Jestem programistą aplikacji webowych i we wszystkich projektach (już od kilku lat) używam UTF-8. Po prostu ;)
Choć muszę to oddać latin2, że do niektórych zastosowań jest lepszy – choćby w bazie danych. Jeżeli wiadomo, że zastosowanie wymaga tylko znaczków latin2, to używanie UTF-a jest bluźnierstwem i zarzynaniem bazy danych ;)
18 lut 2010, 21:48
Ja tam używam utf w bazach i jest OK. Wszystko zależy od wielkości systemu.
27 lut 2010, 22:58
view-source:http://www.wp.pl/
(…)
Wirtualna Polska – http://www.wp.pl
u mnie jest tak…
27 lut 2010, 23:00
charset=utf-8
9 sie 2010, 20:11
Czy ktoś wie w jakim systemie jest kodowany blogger?
23 sie 2010, 14:30
Z tego, co widzę blogger jest kodowany w UTF-8.
Ja sam też jestem zwolennikiem tego rodzaju kodowania i jest to na pewno przyszłościowe rozwiązanie, ale wiele stron (także tych nowych) opiera się w dalszym ciągu na iso-8859-2. Zgodzę się tu jednak z Marcinem (1 post), gdyż ja również nie widzę powodu dla którego strony w innym formatowaniu miałoby się traktować gorzej.
6 gru 2010, 18:55
przechodzenie na utf-8 będzie postępowało. Żadne nowo-powstające serwisy nie korzystają chyba z innych kodowań.
30 sty 2011, 3:39
Ja osobiście tworzę serwisu jedynie w oparciu o UTF. Myślę, że obecnie coraz więcej webmasterów będzie tak czynić.
28 mar 2011, 21:27
Obecnie nowo powstające serwisy w 99% są oparte na UTF-ie.
15 kwi 2011, 11:35
UTF-8 pozwala uniknąć paru problemów, chodź przy innym kodowaniu też nie ma co płakać:)
15 kwi 2011, 11:40
Można powiedzieć,że sprawa kodowania odchodzi powoli w niepamięć i jest to problem coraz mniej zauważalny.
18 sie 2011, 12:37
Wow… ja już chyba dwa lata korzystam z UTF-8. Ba! Doszedłem do etapu nazywania go “wuteef-osiem” ;-) Używam tego kodowania z dwóch powodów – Google zaleca a dwa łatwiejszy do zapamiętania jest niż ISO-551159-2 ;-)
24 sie 2011, 20:07
Z tym kodowaniem jest tak samo jak z html i xhtml, czyli większość się przestawi i tylko nieliczni będą używać ISOlatek.
20 paź 2011, 10:00
Kodowanie ISO 8859-2 robi sie juz troche przestarzałe
27 gru 2011, 19:49
Ostatnio na wszystkich moich stronach przeszedłem na UTF-8, gdyż miałem duże problemy z ISO 8859-2. Długo nie wiedziałem co jest grane, gdyż nie wyświetlała się litera ź oraz ś. Po zmianie na UTF-8 wszystko było OK. Możliwe, że było to spowodowane wyborem niewłaściwego kodowania w edytorze HTML. Nie zmienia to jednak faktu, że w UTF-8 problem znikł.
5 sty 2012, 14:31
Ja swoje wszystkie witryny buduję w UTF-8 i chyba w każdej nowoczesnej firmie to standard
20 mar 2012, 9:40
Problem kodowania właściwie zanika, ponieważ budowa obacnych stron jest realizowana w oparciu o systemy zarządzania treścią, które domyślnie stosują kodowanie unicode.
12 kwi 2013, 6:22
I am sure this paragraph has touched all the internet people, its really really pleasant paragraph on building up new weblog.