[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

第27回 千客万来 多言語廚房



1997年4月号 UNIX USER誌掲載「ルート訪問記」の過去記事

第27回 千客万来 多言語廚房

今回は、京都大学人文科学研究所 [注1](以下、人文研)の齋藤
希史(さいとう まれし)さんを訪ね、使用しているコンピュータ
環境やマルチリンガル環境についてお聞きしました。


==========
[齋藤さんからの新規コメント]  

 多言語環境ということから言うと、この記事のその後二年は、
UNIXよりもMacintoshやWindowsの世界での変化が大きかったですね。
予定されていたことではありましたが、UnicodeがOS標準の文字コー
ドになったことで、Unicodeに対応しているアプリケーションであ
れば、Unicodeを経由するというやり方で、さまざまな文字コード
の間を自由に行き来することができるようになりました。Appleの
Text Encoding Conversion Managerなども、文字コード間のいわば
ハブとしてUnicodeを利用しています。また、例えば、Microsoft
Wordの書類であれば、各言語版のWindows間だけでなく、Macと
Windowsの間でも、多言語で書かれた文書をUnicodeを介することで
やりとりすることができます。多言語環境においてもMicrosoftの
影響力が年々大きくなっているのは否めない事実ですね。:-)

 こうした現状を考えると、Unicodeに対しては、問題点の指摘と
同時に、それをいかに利用していくか、UNIXコミュニティでもまと
まったプロジェクトとして考えていかねばならないのではないかと
感じています。また、X-Window、TeX、Mule(XEmacs)、Perl、SQL
など、日頃使っている環境が統合された多言語環境としてもっと使
いやすくならないものかなとも思います(何も貢献できてていない
のが心苦しいのですけど)。

 私は、ちょうどこの記事が出たころ('97年4月)に奈良女子大に移っ
てきました。講座のサーバーの管理や学生用のコンピュータのメン
テナンスなど、「ルート」的な仕事が増えました。:-) また、京
大人文研のときはコンピュータの多言語環境を「研究」にいかに役
立てるか考えていればよかったのですが、専任教員として学部や大
学院で教えるとなると、「教育」という面にも目を向けざるを得ま
せん。折しも文部省は情報処理教育を熱心に進めていますし、学生
の需要も年々高まっています。外国語教育における CALL
(Computer-Assisted Language Learning;コンピュータ支援言語
教育)とも併せて、教育における多言語環境は、課題も多く、これ
からの成長株(?)です。

 「研究」の面でも、各言語によるテキストアーカイブがますます
充実してきていて、例えば中国学では、台湾中央研究院の古典文献
検索や中国の『四庫全書』全文CD-ROMなどを利用するためにコンピュー
タを触り始めたなどという研究者も出てきています。台湾や中国と
のメールのやりとりも日常的です。文系研究者にとってコンピュー
タの多言語環境がもっと使いやすくなることを望んでいます。
(1999.8.19、齋藤希史)

参考文献:
(1) Ken Lunde氏の"CJKV Information Processing - Chinese, Japanese, 
Korean & Vietnamese Computing-"、1999年1月、O'Reilly発行、
http://www.oreilly.com/catalog/cjkvinfo/ 参照。
(2)『コンピュータで中国語』二階堂善弘・千田大介・池田巧・しにか編集室編、
1999年、大修館書店発行
==========


*マルチOSでマルチリンガル環境を構築

私(以下Y):はじめまして。半年ぐらい前から、複数の言語を混
在利用するマルチリンガル環境について情報交換のメールを交わし
ていましたので、初対面という気がしませんね。

齋藤さん(以下S):そうですね。さっそくですが、最初に私の研
究内容から説明しましょうか。そうすれば、私がマルチリンガル環
境を必要としている理由がよく分かりますから。私の研究対象は中
国文学が中心なんですが、日本とのかかわりも検討課題のひとつで
す。そのため、「コンピュータ上での日本語と中国語 [注2] を軸
としたマルチリンガル環境の実現」は、ずっと切実な問題でした。
学生のころからですから、もう10年以上になりますね。

 研究テーマによっては、日本語と中国語以外の言語も扱います。
たとえば、1996年春に人文研での共同研究の成果として『 注釈漂
荒紀事 [注3]』という 注釈書を発行しましたが、その中ではオ
ランダ語、フランス語、江戸時代の日本語を扱っています。

  漂荒紀事(ひょうこうきじ)というのは、幕末の蘭学者、黒田麹
廬(くろだきくろ)が日本で初めてオランダ語から翻訳した『ロビ
ンソンクルーソー』のことですが、共同研究ではその草稿をオラン
ダ語原文と突き合わせて、注釈を付けていきました。

 この草稿は江戸時代の日本語ですから、JISの第1、第2水準の
漢字 [注4] では足りず、JISの補助漢字 [注5] を使ったり、自
分で作字したりもしました。最終的にMacintosh(以下、Mac)上の
DTPソフト(Adobe PageMaker)で出力・印刷する予定だったことも
あり、執筆者は主にMacを使って作業を進めていきました。そのた
め、月1回ペースの定例会や泊まり込みの研究会のときは、それぞ
れのマシンをLocalTalkで接続して持ち寄った原稿を参照し合い、
その場で修正しながら完成させていくというスタイルをとりました。

Y:文系の研究でも、パソコンがフルに活用されているのですね。
これまで使用してきたマシンと、現在、使っているマシンの構成を
教えていただけますか。

S:一番最初に使ったパソコンは、PC-9801でした。当初はPC-9801
上で無理やり中国語(繁体字)を使っていたのですが、限界を感じ
てMacに移りました。Mac上のマルチリンガル環境 [注6] が整備さ
れたのはWorldScriptが導入された’92年以降ですし、Chinese
Language Kitが発売されて正式に中国語が扱えるようになったのは’
94年ですから、それまではユーザー側で工夫してマルチリンガル環
境を整えていました。

 現在、私の研究室には3台のパソコンがあり、これらを用途に応
じて使い分けています。また、研究所のサーバーとしてはPC/AT互
換機(FreeBSD)があり、これもネットワークを介して使用してい
ます。

 Power Macintosh 8100/80上では、Mach TenとeXodus [注7] の
両方が使えるようになっています。MachTenでは、UNIXのファイル・
システムをMac上に持ち、UNIXマシンとして使用するのに対して、
eXodusではXのディスプレイ・サーバーとしてMacの画面を使い、
Xクライアントを呼び出すという優れものです。

  つまり、eXodusによってXの画面を開いてMuleを起動すれば、あ
たかもMac上でMuleが動いているかのように使えます。私は日常の
雑務、たとえば案内状を作ったりする文房具としてはMacを使い、
論文を書いたりデータを入力したりといったシステマティックに進
めたい仕事はUNIXのファイル・システムを使っています(コラム1
参照)。[新規注]


==========
[新規注]  現在の環境

 現在('99.8)は、私の研究室においてあるPC/AT互換機
(FreeBSD)一台を所属講座(奈良女子大学文学部日本アジア言語
文化学講座)のサーバー兼用として使い(講座内の学生用のマシン
はこのサーバーの下のプライベートアドレスに置いています)、他
に個人用としてMacintoshのデスクトップ1台、PowerBook1台を常
時使用しています。MacintoshにはMachTenとeXodusの最新版のほか、
RealPCというWindowsエミュレーションソフトを入れています。
PowerBookはG3 400/14"なので以前使っていたWindowsマシンよりこっ
ちのエミュレータの方が速いのです。:-)
(1999.8.19、齋藤希史)
==========


*UNIX対Mac  −UNIXの一番の魅力はMule−

Y:UNIXとMacを同じぐらいに活用しておられるように思えるので
すが、それぞれの特徴を教えていただけますか。

S:Macは使いやすいユーザー・インタフェースを持っています。
しかし、フリーズしたときなど、どういう仕組みになっているのか
分かりにくく、「裏で何をやってるのだろう?」と不信感が生じる
ことがあります。人当たりはいいけれども急に機嫌が悪くなったり、
都合が悪いと気絶したりする、ちょっと困ったやつなんです。それ
に対して、UNIXは内部をすべて見せてくれるのがいいですね。考え
ていることがすぐ分かる。ただ、「だからどうしろっていうの」と
思うときもありますが:-)。

 アプリケーションの面で比較しても、Macの場合は自分で何とか
するというよりは、よいものが天から降ってくるのを待っていると
いった感じですが、UNIXの場合はネット・ニュースや書籍を利用し
て情報を集めたり、優秀なソフトウェアを自分でコンパイルして使
えるようにするなど、努力すればするほど道が開けていくという面
白さがあります。私がUNIXを好きなのは、こういった特徴があるか
らです。

 しかし何といっても、UNIXの最大の魅力は「Mule [注8]」=
「UNIX上のマルチリンガル環境 [注9]」ですね。マルチリンガル
環境の構築に苦労してきた私にとって、文字コードや文字集合(ま
めちしき参照)を自分で追加して使うことのできるMuleは理想のエ
ディタです。

 私が扱いたい(日本語と中国語の)漢字を含む文書をすべて電子
化しようとすると、非常に多くの漢字が必要になります。また漢字
には、驚くべき数の異体字も存在 [注10] します。

 JISの文字集合の漢字は第1、第2、補助漢字を合わせても1万
2156字しかありませんので、私が使いたい数にはとても足りません。
ただし、台湾で公布されている中国語の文字集合であるCNS 11643
を使えば、その不自由さはかなり減ります。というのも、現在のと
ころ1面から7面までの7つの文字集合が決められており、合計4
万8711字もの文字が含まれているからです。つまり、1字でも多く
の漢字を使いたい人にとっては、必要に応じて文字集合を追加でき
る枠組みを持ったシステムが理想であり、これに該当するのがMule
なんです。[新規注]


===========
[新規注]  1字でも多くの漢字を使いたい人

たんに文字をたくさん使いたいということなら、『今昔文字鏡』
(紀伊国屋書店)を使うのも手ですが、マルチリンガルというわけ
ではありません。(1999.8.19、齋藤希史)
===========


 Muleで中国語を入力するには、たまご経由でWnn [注11] の
cserver(中国語サーバー)を使います。cserverで変換できるのは
中国語の簡体字ですから、繁体字へはコード変換を行います。人文
研のルートでもある麥谷先生がElispで書かれたコード変換プログ
ラムを使えば、繁体字のBIG5や日本語のJISコードに相互変換する
ことが可能です。このElispは、麥谷先生のホームページ [注12] 
からダウンロードできます。

 もちろんquailでの繁体字入力も可能ですし、短い文章などはそ
れで打ったりもしていますが、一字ごとの変換なのでやっぱり不便
です。

 Wnn4.2には、cserver以外にもtserver(台湾サーバー)が含まれ
ています。これを使えば、上記の変換ツールを使わなくても繁体字
に直接変換できると思うのですが、残念ながらたまごからtserver
は使えません [注13](もちろんXwnmoからは使えます)。せっかく
のtserverが使えないのは残念なので、何とかたまごを改造して使
えるようにしようと、現在Muleの開発者の方などに相談していると
ころです。[新規注]


==========
[新規注]  Wnn4.2にはcserver以外にもtserverが含まれている

1999年に、Wnn4.2の使用許諾条件をGPLに変更したFreeWnnが登場し
ている。1999年7月7日にリリースされたFreeWnn1.1からは、開発が
ユーザー有志の手にゆだねられている。

FreeWnn Projectの公式ページは、 http://www.freewnn.org/ であ
る。

商品版のWnn6には、日本語変換サーバーしかない。その点、日本語
(jserver)だけではなく、中国語(cserverとtserver)、韓国語
(kserver)の各変換サーバーを持つFreeWnnは、日中韓が簡単に切り
替えられる多言語IMとしての可能性があることが、期待されている。
(1999.8.19、よしだともこ)
==========


*Linux対FreeBSD  −Arena i18nのために移行−

Y:ところで、最近LinuxからFreeBSDに移行されたということです
が、理由を教えていただけますか。

S:実は、あまりOSにかかわる話ではないんです。マルチリンガル
WebブラウザArena i18n [注14] はLinuxでもコンパイルはできて一
応動作するのですが、肝心のマルチリンガル文書を読み込もうとす
るとどうも調子が悪かったんです。Arena i18nを使っている人に聞
いたり、作者に問い合わせたところ、FreeBSD用にはバイナリまで
用意されており、快適に動作しているとのことでした。また、
Digital HiNote UltraのMobile Media CD-ROMが使えることもあっ
て(本誌’96年11月号特集Part3参照)、思い切ってLinuxから
FreeBSDに乗り換えました。[新規注]  


==========
[新規注]  

1995年にArena i18n を開発したチームはその後、その言語識別の
技術を応用して、(1) Multi-language search front-end と (2)
HTTP Charset parameter proxy という2例を実装し、有効性を確か
めたそうだ。

詳しくは、論文「言語識別とマルチリンガルアプリケーション」
( http://www.wg.omron.co.jp/announce/language_recognition.html )
オムロン発行"OMRON TECHNICS Vol.39 No.1 Serial No.129 1999" 
参照。
(1999.8.19、よしだともこ)
==========


 研究の性質上、ホームページを作るからには1つのページに複数
言語を混在できるようにしたいと思っているのですが、それにはマ
ルチリンガルWebブラウザが欠かせません。[新規注]


==========
[新規注]

竹内(京都産業大学)の記事のところでも触れてあるが、Macの場合、
Mac OS 8.5以上であれば、日本語とIS0-8859-1を利用する言語の
他、朝鮮語、中国語繁体字、中国語簡体字、アラビア語、デーヴァ
ナーガリー、グジャラティー、グルムキー、ヘブライ語がWWWブラ
ウザで出力できるようになる。(1999.8.1、竹内茂夫)
==========


 またFreeBSDは、インストール時の言語として、英語、日本語、
中国語(繁体字)が選べるという点も気に入っています。

 ところで、よしださんは現在も「UNIX命」ですか。

Y:はい。でも、Windowsも使っています。BOW [注15] の上でMule
を開き、FEPにはWnn95を使って「CTRL-w」キーで変換、「CTRL-l」
キーで確定という、Wnn系のかな漢字変換のキー・バインドを選択
して使えば、違和感なくWindowsが使えます。

S:私も、MacとUNIXに加えて、Soft WindowsによってWindows 95
も使えるようにしています。

 最近、Windows 95の上で動く「cWnn95 [注16](マルチリンガル
Wnn95シリーズ中国語版)」を使ってみました。中国語の漢字を日
本語読み(ローマ字)で入力できるというのは、一般受けしそうで
すね。たとえば、商社などで中国人の名前や住所を入力する場合、
中国語の発音に詳しくなくても入力できるというのは重宝するはず
です。中国語を教える立場としては、学生には使ってほしくありま
せんが:-)。

 私にとってありがいのは、UNIXの多言語文書との連携がコード・
コンバータで保証 [注17] されている点です。普通の中国語入力シ
ステムは、中国語のGBを使っているならGBだけ、BIG5ならBIG5だけ
のコンバートしかできません。

この場合、同一マシン上で日中混在文書を表示・印刷するだけなら
問題ありませんが、別のシステム、とくにWindowsやMac側からUNIX
側にファイル転送して使うことは容易ではありませんでした。しか
しcWnn95では、日中混在のテキストからXで多言語間のデータの受
け渡しをする際に用いられるCompound Text [注18] というISO
2022系のコード(コラム2参照)に変換できます。このコードは
Muleでもサポートされており、マルチリンガル文書を複数のOS間や
ネットワークを介して扱うには、とても都合よくできているもので
す。

 私の場合、異なるコンピュータ環境を使う研究者との共同研究が
多く、しかもそのまとめ役になることもあるので、自分の環境を一
つに統一できません。違ったOSで作られた文書を扱うためには、自
分の環境をマルチOSにしておくことが重要です。共同研究者がそれ
ぞれ違ったOSを使っているとき、不便だからといって「全員、同じ
OSの同じワープロを使いましょう」とはしたくないんです。複数の
OS間で共通したマルチリンガル文書の受け渡しの仕組みさえあれば、
全員が同じものを使う必要はなく、ISO 2022系の文字コード、つま
りCompound TextやISO-2022-*を使うことでOSを超えた文書の受け
渡しが可能になると思います。


*マルチリンガル環境の好ましい未来

Y:齋藤さんの考える、マルチリンガル環境の将来についてお聞き
したいと思います。世間、とくに欧米では「Unicodeさえ使えれば、
マルチリンガル環境が構築できる」という考えがあるようですが、
これについてはどうお考えですか。

S:Unicode(コラム3参照)は、いくつかの言語で使われている
文字が扱える1つの文字集合であって、これを使いさえすれば、直
ちにマルチリンガル環境が構築できるわけではありません。もちろ
ん、Unicodeを使用することによるメリットもありますが、これを
マルチリンガル環境と呼ぶのにはやはり抵抗があります。

 実は、Macが採用してきたWorldScript技術は、「それぞれの表現
系(言語)を固有のコードとともにそのまま混在させる」という基
本思想があり、異コード混在可能ということについては、UNIXやイ
ンターネットの世界で用いられるISO 2022系のシステムと共通して
います。その点では、Windowsでマルチリンガル環境を構築 [注19] 
するよりも優れているでしょう。たとえば、日中混在したMac上で
も、GBコードだけを使って打ったテキストならば、改行コード以外
は何も手を加えずにUNIXでもDOSでも(GBコード対応ならば)読む
ことができます。もちろん、逆も可能です。

 ところが、困ったことにMac上では、複数の言語が混在した文を
plain textにすると、どこからどこまでがシフトJISで、どこから
どこまでがGBなのかが分からなくなってしまいます。つまりエスケー
プ・シーケンスが全部なくなったISO 2022のようになってしまうの
です。せっかく、それぞれの言語には各言語固有のコード体系を用
いて作成しているのに、plain textでそれを吐き出さないという、
マルチリンガルとしては致命的欠陥を抱えています。このため、
「Macのマルチリンガル文書は、plain textでは扱えない」とされ
てしまいました。

 実際は、plain textでも、その境目さえ分かれば文字化けは簡単
に直せます。私自身は、マルチリンガル対応ワープロのマクロ機能
などを利用し、言語の境目をplain textにしても分かるようにして
います。エスケープ・シーケンスを何らかの形で残すplain textへ
のコンバータは簡単に作れるのに、Appleがそれをしようとしなかっ
たことは非常に残念です。

 MacがUnicodeを採用したとしても、日本語、中国語、韓国語の漢
字を区別するためには言語タグが必要となります。Unicodeの文字
集合すべてを表すことのできるフォントがあれば(いまのところあ
まり現実的ではありませんが)、plain textでの文字化けはなくな
るかもしれません。でもマルチリンガルにとって大事なのは、単に
文字化けしなければよいということではないでしょう。

AppleのWorldScript技術は、それぞれの言語特性に即した対応が1
つのシステムでできるようにと開発されました。右から左へ書く言
語への対応もその中の1つです。Unicodeはあくまで文字集合でし
かないので、もし採用するのなら、まずどうやってそれをマルチリ
ンガル化していくか考えないといけません。Unicodeを採用するこ
とで、これまで発展してきたWorldScriptの技術を閉じた方向に進
めてしまわないことを願っています。

 もう1つ気がかりなのは、「この文字数で、世界中のすべての言
語を表現しよう」というUnicodeの考え方が、「みんな、同じもの
を使えばよい」、「みんな、英語を話せば都合がよい」という閉じ
た考えに通じているように思えることです。

 ところで、これまで私たちは、書籍の版下作成のようなDTP作業
にはMac上のDTPソフトを使ってきました。マルチリンガル文書の作
成にはMuleが最適なんですが、版下にするような印刷までは少し無
理だったからです。しかし、LaTeX 2ε CJK package [注20] を使
えば、Muleで入力したマルチリンガル文書が、LaTeXを使って
PostScript [注21] 出力できるようになりつつあります。同パッケー
ジでは、ハングル、ドイツ語、日本語、日本語(ルビ付き)、中国
語(簡体字)、ベトナム語など、さまざまな言語の混在文書が出力
できます。また、バージョン4.1からは、縦書き出力にも対応して
います。

 出力までMule+LaTeXでできるようになれば、MacのDTPソフトに
頼らなくても書籍が発行できるようになりますから、LaTeX 2ε 
CJK packageには大いに期待しています。

Y:それは楽しみですね。今日は、貴重なお話をありがとうござい
ました。



[注1]  京都大学人文科学研究所

1939年に設立された同名の研究所(旧人文)と東方文化研究所、お
よび西洋文化研究所が1つになり、’49年1月に発足した研究機関。
3研究所のそれまでの業績を継承しつつ、世界文化に関する人文科
学の総合研究を行うことを目的としている。現在は、20部門と1附
属研究施設(東洋学文献センター)から成る。詳細は、
http://www.zinbun.kyoto-u.ac.jp/、
または http://web.kyoto-inet.or.jp/people/marez/  で。


[注2]  中国語

中国語の漢字は、中華人民共和国で使われている「簡体字」と、台
湾、香港、シンガポールなどで使われている「繁体字」に分類され
る。中国語の文字集合の代表的なものには、中華人民共和国の国家
標準局が制定したGB(GB 2312-80など)と、台湾の情報産業研究所
が制定したBIG5、台湾の経済部中央標準局が制定したCNS 11643
(台湾の国家標準)がある。


[注3]  注釈漂荒紀事

’96年4月25日、京都大学人文科学研究所から発行され、編者は飛
鳥井雅道、齋藤希史、執筆は木村崇、米井力也、齋藤希史、谷川恵
一、平田由美、松田清である。同書は、「19世紀前半の日本語が、
ロビンソン物語に対してどうゆれ動きつつ、それを吸収、定着しよ
うとしたかを測定し確認する作業」の集大成であり、5年がかりで
完成させた。


[注4]  JISの第1、第2水準の漢字

両方、日本規格協会が制定したJIS X 0208-1990と呼ばれる文字集
合に含まれる。第1水準の漢字2965字は読み(通常、音読み)によっ
て配列されており、第2水準漢字3390字の配列は部首順となってい
る。JIS X 0208の旧バージョンとして、JIS C 6226-1978も存在す
る(旧JISと呼ばれ、漢字の字体などがJIS X 0208-1990とは一部異
なる)。


[注5]  JISの補助漢字

日本規格協会が制定したJIS X 0212-1990と呼ばれる文字集合に含
まれる。JIS X 0212に含まれる漢字の数は5801字で、配列は部首順
となっている。


[注6]  Mac上のマルチリンガル環境

’92年に日本を含めて世界で発表されたSystem 7.1(日本語版は漢
字Talk 7.1)以降、WorldScriptというアーキテクチャが導入され
た。これに対応しているアプリケーション内では、言語環境を切り
替えるだけで自動的にその言語が使用可能となる。’94年4月号の
『Mac Fan』の「Macであなたも国際人 〜Macのマルチリンガル環
境〜」という記事に、マルチリンガル環境が正式に整えられつつあ
ることが解説されている。


[注7]  eXodus

エクソダスと読む。MacまたはWindowsマシンをXのディスプレイ・
サーバーにするためのソフトウェア。ディ アイ ティが販売してい
る。詳細は、http://www.dit.co.jp/で。


[注8] Mule

MULtilingual Enhancement to GNU Emacsの略で、ミュールと読む。
複数の文字集合を扱えるようにGNU Emacsを拡張したエディタで、
通産省工業技術院電子技術総合研究所で開発された。ISO 2022を満
たす文字集合を中心に、多くの文字集合を扱える仕組みを持つと同
時に、ユーザー独自の拡張も可能。’97年2月1日現在の最新バー
ジョンは’95年7月24日公開の2.3(末摘花=すえつむはな)であ
り、これはGNU Emacs 19.28をベースにしている。


[注9]  UNIX上のマルチリンガル環境

UNIX上のマルチリンガル環境については、筆者が執筆者の1人でも
ある『マルチリンガル環境の実現〜X Window/Wnn/Mule/ WWWブラウ
ザでの多国語環境〜』(プレンティスホール)が参考になる。


[注10]  驚くべき数の異体字が存在

「漢字袋」( http://www.kudpc.kyoto-u.ac.jp/~yasuoka/kanjibukuro/ )
では、日本、中国、台湾の漢字の異体字関係が明確に分類されてい
る。このホームページは、京都大学大型計算機センター研究開発部の
安岡孝一さんと、奈良教育大学大学院教育学研究科の安岡素子さんが
作成したもの。


[注11] Wnn

ウンヌと読む。’85年、京都大学、オムロン、アステックによって
共同開発が開始された日本語入力システム。Wnn4.1からは中国語、
各種ヨーロッパ語の入力システムの機能が付加され、多言語入力シ
ステムとなった。


[注12]  麥谷先生のホームページ

京都大学人文科学研究所の麥谷邦夫先生のホームページは、
http://xuanmiao.zinbun.kyoto-u.ac.jp/~mugi/ である。同ペー
ジの「東洋學研究者のための elisp 小物集」からは、さまざまな
ツールがダウンロードできる。


[注13]  たまごからtserverは使えません

cserverとtserverの違いは、扱う辞書がそれぞれ簡体字、繁体字と
なっており、cserverの変換結果はGBのコードが返されるのに対し
て、tserverではCNSのコードが返される。たまごからtserverを使
うには、cserverの環境をtserverの環境に置き換えることで可能と
なる。この場合、たまごに組み込まれているWnnのライブラリ(変
換サーバーとの通信用)が返すコードは、CNSをEUCにマッピングし
たものとなる。そのため、たまご側でこれをBIG5に変換する必要が
あるが、現在、たまご側ではBIG5への変換はサポートされていない。


[注14]  Arena i18n

i18n とは、internationalization (国際化)のこと。i と n の間
に、18文字あることから、このように記述する。Arena i18n は、
World Wide Web Consortium(W3C)が開発したHTML 3.0検証用ブラ
ウザをマルチリンガル化したもの。
http://www.wg.omron.co.jp/~shin/Arena-jwwwc-95/ 参照。


[注15]  BOW

BSD on Windowsの略。バウと読む。Windows上でBSD系のUNIXの端末
環境を実現するソフト。太田博志 著,“BSD on Windows Version
1.5”,アスキー で提供されている。


[注16]  cWnn95

Windows 95上で中国語(簡体字)を入力するためのソフトウェアで、
正式名称はcWnn95 for Windows95。オムロン ソフトウェアが販売
している。cWnn95繁体字オプションを購入すれば、中国語(繁体字)
も入力できる。姉妹商品として、日本語入力システム(Wnn95)、
韓国語/朝鮮語入力システム(kWnn95)、英文入力システム
(eWnn95)がある。


[注17]  コード・コンバータで保証

cWnn95に用意されているコード・コンバータは、cWnn95コードとGB
コード(中国語EUC)、cWnn95コードとBIG5コード(台湾)、
cWnn95コードとCompound Text(Xでの多言語間データ受け渡し用)、
日本語シフトJISとGBコード(中国語EUC)、日本語シフトJISと
BIG5コード(台湾)の5つである。


[注18]  Compound Text

このコード系もISO-2022-JPと同様に、言語が変わるごとに「ここ
からは何語」と指示するエスケープ・シーケンスを使って言語を切
り替える方法を採用している。エスケープ・シーケンスについても
ISO-2022-JPと同様に、ISO-2022で決められたものを使用している。


[注19]  Windowsでマルチリンガル環境を構築

たとえば、Windows 3.1/95で中国語の文字集合を扱うためには、そ
れぞれの入力ソフトがシフトJISにGBをマッピングし直さなければ
ならない。Windows 95では2バイト・コード系の文字集合を混在さ
せることは原理的には可能だが、標準ではサポートしていないため、
日本語システム上でGBコードをそのまま扱うには「裏技」が必要に
なってくる。なお、Windowsでのマルチリンガルに関する情報は、’
96年11月号の『PCWAVE』、「インターネット時代の多言語処理入門」
で詳しく解説している。


[注20]  LaTeX 2ε CJK package

Werner Lemberg氏が作成した、LaTeX 2εの上でCJKを扱うためのパッ
ケージ。’97年2月1日現在の最新バージョンは、4.1.1である。


[注21]  PostScript

’85年、アドビシステムが開発したインタプリタ形式のページ記述
言語。特徴として、自由曲線を表現するベジェ曲線やアウトライン・
フォントが扱えることがあげられる。また、PostScriptは出力デバ
イスに依存しないために、オフィス向けのページ・プリンタから出
版用のタイプ・セッターまで多種多様な出力装置に対応している。
さらにType1フォントは、日本語を含めて豊富に用意されているた
め、ほとんどの出版用印刷システムではPostScriptプリンタを採用
している。


[注22]  ピンイン

ローマ字ではPinYin。主にアルファベットを使って、北京語の発音
を標準音とする中国語のすべての音節を表すもの。中国語には一つ
一つの音節に、高低や上げ下げの調子(音調)が付いており、標準
音には4種類の調子がある。これは、四声(しせい)と呼ばれ、−
(声を平らに伸ばす第1声)、/(一気に引き上げる第2声)、V
(低く抑える第3声)、\(急激に下げる第4声)という4つの声
調符号が母音の上に付けられる。またピンインは、中国語をコンピュー
タに入力する際にも使用される。ただし、中国語の入力方法には、
これ以外にも大変多くのものが存在し、代表的なものだけでも5種
類ある。

発音で入力するものが、中国本土やシンガポールで使われるピンイ
ン(PinYin)と台湾、香港で使用されるチュウイン(ZhuYin)。形
態素で入力するものが、中国本土で使われるウービ(Wubi)とチャ
ンチィエ(CangJie)。それ以外の方法が、コード入力である。

===================================================================

コラム1 Mac上でUNIXを使う

 Mac上において何らかの方法でUNIXを使う場合、どのようなパター
ンがあるのか、齋藤さんに簡単にまとめていただきました。

(1)MkLinuxやNetBSD/mac68kなどを使用

 マシンそのものをUNIXマシンにしてしまう方法。したがって、
UNIXとして使っているときはMacとして使用できない。当然、その
逆も不可能である。

(2)MachTenを使用

 MacOS上でUNIXのオペレーティング環境を動作させる方法。MacOS
とUNIXを同じマシンで同時に使うことが可能(本誌’96年1月号
「MachTenインフォメーション」参照)。

(3)eXodus、XTenを使用

 MacにXサーバーを導入し、イーサネットでつながった別のUNIX
マシンをMac上で使用する方法。eXodusの場合は、クライアントは
すべて外部のマシンから呼び出すが、XTenの場合は、MachTenのよ
うにUNIXのファイル・システムをMacのハードディスクに持ってい
るので、内部のXクライアントを使うことも可能。


===================================================================

コラム2 ISO 2022とISO-2022-*

 ISO 2022では、複数の文字集合を切り替えて利用するための符号
拡張法(枠組み)が定められている(日本語訳はJIS X 0202)。こ
れには、7ビットだけを使って文字を表現する「7単位符号の拡張」
と、8ビットを使って文字を表現する「8単位符号の拡張」という
2種類が存在する。この規格に則った文字コードの種類としては、
ISO-2022-JP(JISコード、あるいはJUNETコードと呼ばれる)、
ISO-2022-CN、ISO-2022-KR、各国語版EUC、Compound Text、
ISO-2022-JP2などがある。

 なおISO-2022-*は、Compound Textと同様に言語が変わるごとに
エスケープ・シーケンスを使って言語を切り替える方法を採用して
おり、このときのエスケープ・シーケンスはISO 2022で定められた
ものを使用している。

 たとえば、ISO-2022-JPでは扱える文字集合がASCII、JIS X
0201-1976(ローマ文字)、JIS X 0208-1978、JIS X 0208-1983で
あるのに対して、その拡張であるISO-2022-JP2ではGB 2312-80(中
国語)、KSC 5601-1987(韓国語)、JIS X 0212-1990(補助漢字)、
ISO 8859-1(Latin Alphabet No.1)、ISO 8859-7(Greek)が加わっ
ている。

 ISO-2022-JPについてはRFC1468(Japanese Character Encoding
for Internet Messages)、ISO-2022-JP2についてはRFC1554
(Multilingual Extension of ISO-2022-JP)を参照してほしい。


===================================================================
コラム3 Unicode

 世界の主要な言語をすべて2バイト・コード化し、6万5536文字
(2の16乗)に収めて1つの大きな文字集合にすることにより、2
バイト言語どうしを混在させようとしたのがUnicodeである。ISO
10646には、1文字16ビットのUCS-2形式と1文字32ビットのUCS-4
形式という2種類のエンコーディングが存在し、この中のUCS-2形
式の部分にUnicodeが採用されている。

 Unicodeで使用できる6万5536文字の中で、漢字は4万8711文字
と定められており、日本語、中国語(簡体字と繁体字)、韓国語の
それぞれの漢字が単一の配列でこれに当てはめられた。

 また、JDK 1.1においてUnicodeをサポートしたことにより、Java
でローカライズ可能なアプリケーション、およびアプレットの開発
環境が提供された。

===================================================================

UNIXまめちしき

文字コードと文字集合

・文字コード

 文字集合を定め、その集合内の文字とビットの組み合わせを、1
対1に対応させた規則の集合。文字コードの例としてはASCIIコー
ド、Latin Alphabet No.1(ISO 8859-1)、ISO-2022-JP(JISコー
ド)、各国語版EUC、シフトJISなどがある。

・文字集合

 文字セットとも呼ばれる。文字集合の例としてはASCIIの図形文
字(94文字)、ISO-8859-1の右側(96文字)、JIS X 0201のローマ
文字(94文字)、JIS X 0201のカタカナ(94文字、ただしカタカナ
の文字数には限りがあるので余った31文字は未定義)、JIS X 0208
漢字集合、JIS X 0212補助漢字集合などがある。

===================================================================


(UNIX USER誌連載「よしだともこのルート訪問記」より)
http://www.tomo.gr.jp/root/ に戻る