[ 日本語ホームページへ ] [ Unicode表示ホームページへ ]
[ Latin3のエスペラント表記、作成のページへ ]
[ 新JIS/ JIS X0213の文字コード表及びエスペラント表記、作成ページへ ]


マックMacOS 9におけるUnicode (utf-8)の扱い方について

エスペラント字上符文字に関するunicodeの取り扱い(特にWindowsに関して)については、最近のWindowsの字上符文字使用法
に詳しく書いてます。

MacOS 9を使ってユニコードの文書を作る方法を紹介します。

Unsiteというソフトでユニコードの文章を作れましたが、現在はMuwseという名前に変わり、MacOSXにも対応しています。PowerPCで、MacOS 8.6以降、2MB以上のメモリー、CarbonLib1.3.1、Textencoding Converter 1.31 以降がインストールされていることが条件です。(1.5が推奨されています)

lunlumoさんのサイトにもMacOS9用のソフトがあります。
 まず、ゴミ箱(自作ソフト等)をご覧になってください。SupersignoやBabeloを使うと、UTF-8, Latin-3, EVENTOJ形式間で相互に変換できます。超漢字用のソフトもあります。
私は、このソフトでunicode(utf-8)ホームページを作ったことがあります。

ユニコードは、Windows98で編集をするとスムーズにいきます。Windows95の場合、Windows98に是非アップグレードしてください。

Word97以上で、ATOK9以上(またはユニコード手入力)を使います。

Wordを起動し、ATOKの文字パレットのunicode表より、該当する文字を選びます。

Wordで文字を選ぶと書き込まれますが、その各々の字上符文字のところは、下の表の右側にある文字コード(ユニコードの表)が書き込まれてます。

一般のテキスト・エディタで下の表にある文字コードを打ち込んでも、出力します。

 e (cxe) --> ĉe
 
pao (pagxo) --> paĝo


 charset=utf-8 とするのを忘れずに!

 ブラウザで unicode がきちんと出力されるのは、最初はWindows のInternet Explorerだけでしたが、unicodeに対応するものが増えてきました。

なお、文書の charset が、utf-8 でも iso-8859-3 (Latin3) でも US-ASCII でも shift_jis でも何であっても、 ĉ や ĝ のような『“文字参照”は UCS に対して行う』ことになっています。 (W3C, HTML 4.0 Specification, 1997)


 なおMacOS 9では、Internet Explorerで、ユニコードが出力されますが、字上符が、字の上でなく、右横に出力されます。(ver.4.0ver.4.5ver.5.0で確認しました。Ver.3.01では、対応してません。)iCabというブラウザでも同じです。

 Netscape Navigator (ver.4.XX以前)では、ユニコードの部分が、""となってしまい、字上符文字が出力されません。

Macにおいては、ユニコードInternet ExplorerLatin3Natscape Navigator (ver.4.XX以前)という使い分けが、必要かもしれません。ただし、iCabというブラウザでは、どちらも表示します。




Esperanta
litero

charset=
iso-8859-3
(Latin-3)

(10進表示)

Latin3 kodo

(16進表示)

charset= utf-8
 (文字参照 10進表現) 

(utf-8 16進表示)

unikodo
utf-16
(16進表示)


Donita litero

(Cx)

198

C6

Ĉ   (C488)

108
C kun cirkumflekso

(cx)

230

E6

ĉ   (C489)

109
c kun cirkumflekso

(Gx)

216

D8

Ĝ   (C49C)

11C
G kun cirkumflekso

(gx)

248

F8

ĝ   (C49D)

11D
g kun cirkumflekso

(Hx)

166

A6

Ĥ   (C4A4)

124
H kun cirkumflekso

(hx)

182

B6

ĥ   (C4A5)

125
h kun cirkumflekso

(Jx)

172

AC

Ĵ   (C4B4)

134
J kun cirkumflekso

(jx)

188

BC

ĵ   (C4B5)

135
j kun cirkumflekso

(Sx)

222

DE

Ŝ   (C59C)

15C
S kun cirkumflekso

(sx)

254

FE

ŝ   (C59D)

15D
s kun cirkumflekso

(Ux)

221

DD

Ŭ   (C5AC)

16C
U kun bireto

(ux)

253

FD

ŭ   (C5AD)

16D
u kun bireto

注)#の付いているコード番号は、すべて10進数です。

Unicode --> UTF-8 (ユニコードをASCIIと上位互換したもの)への変換方法

UTF-8は、Unicodeを非ASCII領域のみを使ってエンコードします。
UTC-2(2 byteのユニコード)をUTF-8でエンコードすると、最大で 3 byteになります。
UTC-4(4 byteのユニコード)をUTF-8でエンコードすると、最大で 6 byteになります。
ASCII文字からなるテキストは、サイズが変わりません。

(1)Unicodeが、0000 - 007F (ASCII) の時

   下2桁を、そのまま1バイトコードにする。

   0xxxxxxxとなる。

(2)Unicodeが、0080 - 07FF の時

   2進数変換した値を、00000xxxxxyyyyyyとすると、

   2進数で、110xxxxx を1バイト目、

   2進数で、10yyyyyy を2バイト目とする。

(3)Unicodeが、0800 - FFFF の時

   2進数変換した値を、xxxxyyyyyyzzzzzzとすると、

   2進数で、1110xxxx を1バイト目、

   2進数で、10yyyyyy を2バイト目、

   2進数で、10zzzzzz を3バイト目とする。

(4)Unicodeが、0001 0000 - 001F FFFF の時

   2進数変換した値を、xxxyyyyyyzzzzzzaaaaaa とすると、

   11110xxx 10yyyyyy 10zzzzzz 10aaaaaa とする。

(5)Unicodeが、0020 0000 - 03FF FFFF の時

   2進数変換した値を、xxyyyyyyzzzzzzaaaaaabbbbbb とすると、

   111110xx 10yyyyyy 10zzzzzz 10aaaaaa 10bbbbbb とする。

(6)Unicodeが、0400 0000 - 7FFF FFFF の時

   2進数変換した値を、xyyyyyyzzzzzzaaaaaabbbbbbcccccc とすると、

   1111110x 10yyyyyy 10zzzzzz 10aaaaaa 10bbbbbb 10cccccc とする。

 例 「つくね2串」 3064 304F 306D 0032 4E32 では、

     E3 81 A4 E3 81 8F E3 81 AD 32 E4 B8 B2 となる。


[ 新JIS/ JIS X0213の文字コード表及びエスペラント表記、作成のページへ ]
[ Latin3のエスペラント表記、作成のページへ ]
[ Unicode表示ホームページへ ] [ 日本語ホームページへ ]