<はじめに> この"Wnn 関係用語集" は、Wnn Users ML に属する以下の者が作成しました。 まとめ役: 馬場 肇、よしだともこ 情報提供者: 佐渡さん、森島さん、片山さん、西村さん、長岡さん、山野さん、 丸山さん、篠原さん、今さん、戸村さん、中村さん、中野秀治さん、 鈴木さん、山下さん、桑理さん、新出さん、Wnn Users ML 参加の方々、 fj.kanakan.wnn にて('92年9月〜'97年5月の期間に)質問に答えられた方々
京都大学、オムロン株式会社、株式会社アステックによって共同開発され、1987年に完成した UNIX 上のかな漢字変換システム。Watashino Namaeha Nakanodesu(私の名前は中野です)という文章の一括変換ができるシステムということで、その文の各文節の頭文字をとって名付けられた。C言語で書かれたソースコードが無料で配布されたことから、多くのワークステーション上で使われるようになり、現在では、UNIX 上のかな漢字変換システムのデファクト・スタンダードとなっていると同時に、マルチリンガル入力システムにも発展している。
Wnnについての概要は、「Wnnについての基礎知識」、あるいは、 "Note on the basic concepts of Wnn"(in English)も参照のこと。
クライアント・サーバ方式の Wnn の日本語変換サーバ部分の名称。
jserver は、jserverというコマンドを実行すると起動する。手動で起動する場合もあるが、通常はシステムの立ち上げ時に自動的に起動されるように設定する。ちなみに、すでに jserver が動いている場合に再起動すると、
Nihogo Multi Client Server (Wnn・・)
jserver: Can't bind inet-socket
というエラーメッセージが表示される。
1987年、Wnn がフリーソフトウェアとして初めて世の中に登場した時のバージョン。Wnn が現在持っている「クライアント・サーバ方式」、「ユーザごとのカスタマイズが可能」などの特徴を、このバージョンはすでに持っていた。なお、Wnn の開発は、GMW という国産のウィンドウシステムの開発と同時に行われた。GMW は、国内初の当時としては画期的なウィンドウシステムであったが、その後の X Window Systemというデファクト・スタンダードの出現により淘汰されてしまった。
図:Wnn2のクライアント・サーバ構成 (書籍「マルチリンガル環境の構築」2章 p.44 より抜粋)
Wnn2が登場したのと同じ年の1987年に、リリースされたバージョン。 Wnnが爆発的に広がったのは、このバージョンのWnnからである。Wnn3のリリース当時は、ソースは無料で配布されたが、辞書だけは有料(手数料程度)であったが、JUNETのボランティアによるpubdicプロジェクトのおかげで、間もなく、辞書も含めて完全な無料配布が実現した。
Wnn3は、Wnn2の持つ機能を引き継いだうえで、ネットワーク対応の機能が追加された。それにより、Wnnのサーバ(jserver)とクライアントは、それぞれ、ネットワーク上(TCP/IPプロトコル上)のどこにでも置けるようになった。
図:Wnn3のクライアント・サーバ構成 (書籍「マルチリンガル環境の構築」2章 p.45 より抜粋)
Wnn3を機能拡張したバージョンとして、1989年にリリースされた。追加された代表的な機能は、次の通りである。
・大文節と小文節の概念の導入、数詞の変換候補の拡張
・逆変換(漢字から、かな文字列に戻す)機能の導入
・品詞の数の拡張、ユーザごとの単語の不使用設定を可能に
・低レベルと高レベルの2つのアプリケーション・インタフェースの導入
なお、Wnn4 の主なバージョンには、Wnn4.03、Wnn4.1、Wnn4.102、 Wnn4.107、Wnn4.108、Wnn4.109、Wnn4.2 などがあり、マルチリンガル入力システムとして、X11R5(X Window System Version 11 Release 5) の contributed software に含まれたことで、世界的に使われるようになったバージョンが、1991年公開の Wnn4.1 である。
図:Wnnのバージョンの流れ (書籍「マルチリンガル環境の構築」2章 p.44 より抜粋)
Wnn4.2 には、日本語、中国語(簡体字)、中国語(繁体字)、韓国語に対応した変換サーバ(それぞれ、jserver、cserver、tserver、 kserver)と各言語用の辞書が含まれているため、日本語入力システムとして使われると同時に、マルチリンガル入力システムとしても使うことができる。その場合の主なユーザインタフェースには、各言語版の uum(それぞれ、uum、cuum、tuum、kuum)を使う、X Window System 用の IM(Input Manager) である xwnmo を使う、マルチリンガルエディタの Muleを使う、の3種類がある。
Wnn6 が登場する前に、オムロンの社内だけで存在した幻のバージョン。これ以上の情報は公開されていない。
Wnn が1987年の誕生当時から持っていた特徴のうち、内部公開と無料配布という2つをあきらめることによって、1995年に誕生したバージョン。 Wnn が誕生当時から持っていた特徴とは、以下の5つであった。
(1)文章一括変換の実現 (2)クライアント・サーバ方式の採用 (3)ユーザごとに変換方式、ローマ字表記などすべての項目が カスタマイズ可能 (4)内部構造をすべて公開することで、ユーザ独自のアプリケーション 開発が可能 (5)C言語で記述されたソースを無料で提供することで、多くのマシン への移植、多くの人の利用が可能
これら5つの特徴特長のうち、(1)〜(3)が強化され、(4)と(5)が制限されて誕生したのが、Wnn6 である。開発を担当したのはオムロン(株)、販売担当は、オムロンソフトウェア(株)である。
1998年11月に、Wnn6のライブラリ(SDK:Software Development Kit)のソースが、すべて公開された。Wnn6-SDK-sources.tar.gz という名前のものが、 http://www.omronsoft.co.jp/press/sdk.htmlから入手できる。
Linux の 2.0 以上、FreeBSD の 2.2-RELEASE 以上、NetBSD の 1.2 以上、 BSD/OS 3.0 以上に対応した Wnn6 である。対応CPUはインテル版のみである。
Version1は、「1ユーザが同時に5セッションまで変換サーバ(jserver)に接続可能」というライセンス管理方式の個人ユーザ向けのパッケージの価格が、9,800円であった。
Version2(1998年12月リリース)からは、ネットワーク・ライセンス方式導入され、学内・企業などのLAN上での利用が可能となり、「使用のユーザ名には関係なく、同時に2ライセンスまで変換サーバ(jserver)に接続可能」というものが、9,800円で提供されている。また、Version2には、環境設定ツール/XIMサーバ『xwnmo』(エックスウンモ) が搭載された。
Version3(1999年7月リリース)の新機能は、『簡単インストーラ』搭載、『Windows95/98用クライアント』標準添付、『辞書の語彙数を大幅に増強』である。
Windows95用のマルチリンガル入力システムで、1996年よりオムロンソフトウェア(株)から商品として提供されていた。1997年には、日本語版、中国語版(基本は簡体字用で、オプションとして繁体字フォントが提供されている)、韓国語版、英語版が揃い、マルチリンガルWnn95 シリーズとも呼ばれていた。
フォント切り替えの可能なアプリケーション(Word、Excel、一太郎など)の上で、これらの言語の混在が可能となるもので、「マルチリンガルマネージャ」を使えば、一度のマウスクリックで言語切り替え、つまりIMEとフォントの同時切り替えができた。日本語Wnn95の場合、変換のキーバインドを Mule 上のたまごと同じように設定する機能もあり、(Windows95 も使わざるをえない)UNIXユーザに喜ばれていた。
eWnn(イーうんぬ)は、まったく新しい英語入力環境を日本人に提供するもので、ewnnserverと呼ばれる変換サーバを使って、「英和・和英辞書引き」、「スペルチェック」、「動詞の不規則活用の検索」などの機能を提供する。
1997年に、Windows95/NT4.0で動作するeWnn動させるに対応した、「英語版の Wnn95 (eWnn95 for Windows95/NT4.0)」の販売がスタートし、1998年12月には、サーバーとしてLinux 2.0 以上とFreeBSD 2.2 以上を対象とした「eWnn for Linux/FreeBSD」と、SunOS 4.1.x と Solaris 2.5 以上を対象とした、「eWnn for Solaris」も販売された。
「Wnn for Java」は、Java の特長である「国際化」「クライアント/ サーバ」に対応した入力システム。日本語の入力だけでなく、入力時に漢字への変換を必要とする言語(中国語、韓国語/朝鮮語)の入力もサポートしていた。
「Wnn for Java」は、1997年度のJavaカンファレンス主催の「Javaに関する技術・応用・表現大賞'97」にて、「奨励賞」を受賞した。
詳しくは、http://www.omronsoft.co.jp/SP/Java/index.html 参照。Wnn7、モバイルWnn、AdvancedWnn、Wnn8などの商品版Wnnが、オムロンソフトウェア(株)から、続々と登場している。詳しくは、 http://www.omronsoft.co.jp/SP/ 参照。
「商品版Wnnいろいろ」のうち、2005年2月25日より販売が開始された「Wnn8 for Linux/BSD」には、それまでのバージョンにはなかった次の特長があり、注目されている。
「Wnn8 for Linux/BSD」について詳しくは、 http://www.omronsoft.co.jp/SP/pcunix/wnn8/index.html 参照。
(株)イニューシステムが出していた、Macで動くWnnシステム。本家の Wnnと同様、クライアント・サーバ方式を採用しており、Wnn4.2をベースとした漢字変換サーバは、AppleTalk と TCP/IP のどちらのネットワークからも利用可能であった。
Wnn Ver.3 を元にして、竹岡尚三(AXE,Inc.)氏によって改造されたもの。3Mips の機械でも快適に動くらしい。WnnFree の名称は、Ver.3 (Three)に引っかけてFreeとした(と、リリースノートにある)。1994年 6月に、リリース1.0がfj.sources に投稿された。ただし、Nemacs 対応ではあったが、Mule には対応されなかった。
フリーソフトウェアとしてのWnnは、Wnn2(1987年)、Wnn3(1987年)、 Wnn4.0(1989年)とバージョンアップを続け、中国語変換のcWnnの機能を加えたWnn4.1が1991年に、韓国語変換のkWnnの機能とX11R6対応の機能を加えたWnn4.2が1994年10月にリリースされた。しかしその後の約5年間、Wnn4.2は事実上メンテナンスされておらず、アンオフィシャルパッチがアンオフィシャルなままで放置されている状態が続いた。
この状態を危惧するユーザー側から「フリーのWnnの開発を再開したい」という声を受けたオムロンが、どのような形でユーザーの活動を再開するのがベストなのかを検討をした結果、Wnn4.2を、フリーの Wnnの共同著作者の同意を得た上でGNUの使用許諾条件(GPL)に則ったものに変更し、FreeWnn という新たな名前で改めて配布することにした。そうすれば、ユーザーが自由に改変、配布、複製できるようになるからだ。
その結果、1999年3月にリリースされたのがFreeWnn1.0で、 Wnn4.2からFreeWnn1.0への変更点は、基本的に、使用許諾条件のGPL への変更のみであった。そして、1999年7月7日、FreeWnn1.0に対して機能強化したFreeWnn1.1 がリリースされた。このバージョンのリリースを機に、FreeWnnの開発は、オムロンの手を離れ、ユーザーの有志の手によって継続されている。
詳しくは、http://www.freewnn.org/ (FreeWnn Projectのホームページ)参照。
Wnn4 以降採用された機能で、「漢字かな混じり文字列」を「ひらがな」に戻す(逆に変換する)機能。Wnn4 にも Wnn6 にもこの機能はあるのだが、知らないのか必要ないのかどちらかの理由で、あまり多くの人には使われていないようだ。
Mule からたまご経由で使う方法としては、すでに確定された文字列のある部分をリージョン指定して、リージョン部分の逆変換(M-x gyaku-henkan-region)の操作をすると、すでに確定されていた漢字かな混じり文を、ひらがな文字列に戻すことができる。たとえば、「捏造」という読みがわからなかった場合など、この部分をリージョン指定して逆変換させることで、これが「ねつぞう」と読むことがわかる。漢字の苦手な日本人、日本語を母国語としない人には、ありがたい機能であろう。
ただし、Wnn6が標準で提供している辞書は、逆変換できないように作られている。
インスペクトとは、変換中の結果の各種情報、具体的には、
変換結果、ひらがな文字列、品詞、含まれる辞書、各単語に振られた番号、頻度値(今使ったよビットが立っているときは、前に*がつく)、小文節の評価値、大文節の評価値などの情報を表示させる機能である。
インスペクトは、Wnn4の場合もWnn6の場合も、さらには、xwnmoを使っている場合もMuleで「たまご」を使っている場合も、変換後、確定前に、Ctrl-v とすれば表示される。
また、Muleを使っているなら、M-x edit-dict-item と入力し、調べたい単語の読みをひらがなで入力することで、インスペクトで表示させる内容を表示させることができる。この時は、単なるインスペクトとは違い、頻度値などの情報を編集することも可能である。
Wnn3からWnn4へのバージョンアップの際、「1つ以上の小文節から大文節が構成される」という概念が導入された。たとえば、「第一回」は、「第」「一」「回」という3つの小文節からなる大文節であり、「吉田さん」は、「吉田」と「さん」という2つの小文節からなる大文節だと考える。「第」「回」「さん」などは接頭接尾語で、Wnn4の候補には、接頭接尾語がついた単語を大量に並ぶことになった。これによって辞書にない単語も変換できるというメリットは、「Wnn4 はとんでもない単語を作り出してしまう!」という悪評と表裏一体だったようだ。
Wnn4/6 の変換サーバ(jserver)は、文字列の文節解析や変換候補の決定に、独自の計算式にもとづいて計算される評価値を使っている。この評価値の計算に重要な役割を果たしているのが、計算式で使われている17種類のパラメータの値であり、この値を変更することで変換効率をアップさせることも可能である。
この17種類のパラメータとデフォルトの値を以下に示す。
パラメータの名称 | 変数名 | デフォルト値 |
---|---|---|
解析文節数 | N | 2 |
小文節の最大数 | nsho | 10 |
頻度重み | hindo | 2 |
小文節長重み | len | 45 |
自立語長重み | jiri | 5 |
最近使用状況重み | flag | 80 |
辞書優先度重み | jisho | 5 |
小文節の評価値重み | sbn | 1 |
大文節長重み | dbn_len | 40 |
小文節数重み | sbn_cnt | 0 |
数字の頻度 | suuji | 400 |
カナの頻度 | kana | -100 |
英数の頻度 | eisuu | 400 |
記号の頻度 | kigou | 80 |
閉括弧の頻度 | toji_kakko | 200 |
付属語の頻度 | fuzokugo | 2 |
開括弧の頻度 | kai_katto | 200 |
Wnn4の変換パラメータの値を変更することで、Wnn4の変換効率をアップさせることも可能である。特に好んで使われているパラメータの値は、1993年当時、Wnn コンソーシアムによって開設されたメーリングリスト上で話し合われた結果を、よしだともこが雑誌記事用にまとめたパラメータの値である。この17種類のパラメータの値は、 2 10 2 45 100 200 5 1 40 -100 200 -100 200 80 200 200 200 である。
Wnn4のサーバ(jserver)を,Muleのたまご経由で使っている場合に、パラメータをこの値に変える方法は、~/.eggrc に以下の行を記述する。
(load "eggrc-wnn")
(set-wnn-reverse nil)
(set-wnn-param 2 10 2 45 100
200 5 1 40 -100 200 -100 200 80 200 200 200)
FI(Flexible Intelligence)変換とは、Wnn6 でオムロンが採用した変換方法。AI変換技術を超える「FI技術」とは、環境や目標が変化しても自分で知識を生成して、与えられた上位目標を達成する知恵、すなわち、「いろんな人がいろんな文章を入力するが、それぞれの場合に適した変換(その人に最適な変換)ができる」システムという意味らしい。
具体的には、270万用例から成る「FI関係辞書」を利用して変換する「FI変換機能」によって、同音異義語の中のもっとも適切なものが最初の候補として現れる。さらに、各ユーザがどの候補を選択したかの情報が、自動的に「FI 関係辞書」に登録されることによって、一度確定した結果が、二度目以降の変換に活用されるという機能もある。
その昔、オムロンがWnn6の変換効率の優秀さを宣伝する際に用いていた数字。ちなみに、同じ文章を Wnn4 + pubdic でテストした結果は90.18%、 ATOK8で94.95%、ATOK9で95.33%だったらしい。
この数字の根拠は、オムロンが「あるユーザ」に依頼した評価によるもので、それぞれ1000文字からなる五つの分野(一般文、法律、文学、政治経済、テクニカル)の文章に対して変換テストを行なって求めた数字らしい。テストに使われた文章は、その「あるユーザ」が選んだというところがミソだそうな。具体的な計算方法は、次の通りだということだ。
まずひらがなで文字列を入力して、漢字かな混じり文に変換させます。 その変換結果のうち、正しく変換された文字数を「元の文章に対する 正解文字数」として、「元の文章の文字数」に対する割合を以下の計 算式で計算します。 元の文章に対する正解変換文字数 変換率 = −−−−−−−−−−−−−−− ×100 元の文章の文字数 もし、元の文章が「私の名前は中野ですよ」という10文字だった場合、 その変換結果が、「私の名前は中のですよ」となった場合、9文字が 正解文字数となって、9/10 × 100 = 90 で、変換率は90%となる訳、 です。
しかしfj.kanakan.wnnにこの事が出た時「たった5000文字での評価で有効数字が4桁というのは厚かましい限りだ。せいぜい一桁半がいいところのはず」という声もあった。これを受けてかどうかは不明だが、オムロンソフトウェアは現在ではこの数字は宣伝材料としては用いていない。
Wnn4 のシステム管理、辞書操作で使われるコマンド(日本語関係)には、次のものがあり、/usr/local/bin/Wnn4/ の下にインストールされている。
・jserver | 日本語変換サーバ |
・uum | 日本語キャラクタ端末用 FEP |
・atod | テキスト形式辞書からバイナリ形式辞書への変換 |
・atof | テキスト形式付属語情報からバイナリ形式付属語情報への変換 |
・dtoa | バイナリ形式辞書からテキスト形式辞書への変換 |
・wnnkill | 日本語変換サーバを終了させる |
・wnnstat | 日本語変換サーバの状態を調べる |
・wnntouch | 辞書の inode を合わせる |
・wddel | 単語削除を一括して行うコマンド |
・wdreg | 単語登録を一括して行うコマンド |
・oldatonewa | Wnn3 形式の辞書を Wnn4 形式の辞書に変換 |
Wnn6 のシステム管理、辞書操作で使われる主なコマンドには、次のものがある。
・jserver | 日本語変換サーバ |
・atod | テキスト形式辞書からバイナリ形式辞書への変換 |
・dtoa | バイナリ形式辞書からテキスト形式辞書への変換 |
・otow | 辞書コンバータ |
・wnnkill | 日本語変換サーバを終了させる |
・wnnstat | 日本語変換サーバの使用者状況を調べる |
・wnntouch | 辞書の inode を合わせる |
・udmerge | 登録語自動反映モジュール |
・wnnaccess | 現在のアクセス許可状態の通知/変更コマンド |
・wnnds | 辞書引きサーバ |
・wnnoffline | オフライン学習 |
これらのファイルは、パッケージ版では、/usr/local/bin/Wnn6/ の下にインストールされるが、OEM 版では、以下の場所にインストールされる。
Solaris 2.5: | /opt/Wnn6/bin |
IRIX: | /usr/bin/Wnn6 |
AIX: | /usr/lpp/jkit/Wnn6/bin |
Wnn の普及を図ることと、システムの技術サポートを行うことを目的として、1990年10月に発足した団体。Wnn の配布とメンテナンス、新しい技術の研究、情報交換などの活動をおこない、Wnn の発展に貢献している。コンソーシアムで技術的な問題を検討する「テクニカルコミティ」のメンバーによって「gerodic プロジェクト」「大規模 jserver 実験」などが実施された。
現在、事務局はオムロン株式会社内に置かれている。窓口のメールアドレスは、wnn-cons@ari.ncl.omron.co.jp である。
1993年8月、Wnn のユーザ同士が情報を交換する場として、Wnn コンソーシアムによって開設されたメーリングリスト。サーバの不調により、途中で一時中断し、1997年4月からは、
wnn-users@iijnet.or.jpという新しいメールアドレスで再スタートした。 詳しくは、 Wnnユーザーズメーリングリスト案内参照。
Wnn に関するニュースグループは、 fj.comp.input-method.wnn (旧 fj.kanakan.wnn) である。これ以外に、商品版の Wnn6 をサポートするニュースグループである tnn.forum.wnn や、japan.comp.wnn も存在した。
Wnnバージョン3の時代(1987年〜1989年)に、元ASTECの橘 浩志氏が世話人となって行なわれたpubdicプロジェクトの成果物。Wnnが誕生した 1987年当時、ソースは無料で配布されていたが、辞書だけは有料であった。しかし、JUNET のボランティアによる pubdic プロジェクトのおかげで、辞書を含めた完全な無料配布が実現された。
pubdicプロジェクトでは、適当な題材となる本や文章を選び、それを間違いなく入力していき、登録されていなかった単語に関しては登録も行う、という方法を取っていた。正しく変換が行なわれているかのチェックも、参加していた各ボランティアの方に要求されていた。これは、頻度情報などを正しく更新していくために必要な処理だった。
1993年にASTECの坂下秀氏を中心として行なわれた、pubdic+プロジェクトの成果物。その当時の目標は、次のようなものだったらしい。
1. フリーなかな漢字変換用の辞書を整備する。
2. この辞書は、特定のかな漢字変換システムに依存しない。
3.
既存のかな漢字変換システムへの変換ツールを整備する。
4. できるだけ多くの情報を収録する。
成果物は、Canna では利用されているが、Wnn では正式には利用されていない(ユーザによっては、使っている場合もあるだろうが。) pubdic@astec.co.jp がそのメーリングリストだったが、現在、このプロジェクトは終了している。
Wnn6 が開発される前の 1993年に、Wnn4 の強化辞書としてオムロンソフトウェア(株)が販売したもの(今でも売っているようだ)。pubdic の 35,671語に対して、岩波Wnn辞書は16万語を所収している。人名地名関連の単語だけで合計 33,300語ということなので、かなり充実している。
pubdic | pubdic+ | 岩波辞書 | |
---|---|---|---|
bio.dic(生物学) | 465 | 584 | --- |
chimei.dic(地名) | 4893 | 4732 | (*) |
computer.dic(情報処理) | 900 | 1008 | --- |
jinmei.dic(人名) | 2493 | 3480 | 33300:(*) |
kihon.dic(基本) | 22709 | 28368 | 112200: |
koyuu.dic(固有名詞) | 252 | 303 | 3000: |
setsuji.dic(接頭接尾語) | 880 | 1077 | 1000: |
special.dic(特殊語) | 26 | 13 | --- |
symbol.dic(記号) | 184 | 186 | 1000: |
tankan.dic(単漢辞書) | 2869 | 2918 | 12500: |
total | 35671 | 42569 | 163000: |
Wnnコンソーシアムのテクニカルコミティの活動の一つとして行なわれたgerodic プロジェクトの成果物。「人名に関する固有名詞辞書 (23,345語)」は、Wnn4.109(1993年7月リリース)に含まれた。
ただし、JE配布の Mule の中の、たまごによる変換環境の設定ファイル /usr/local/lib/mule/19.28/lisp/eggrc-wnn では gerodic を読み込まない設定になっていた(コメントアウトされていた)。
この辞書が gerodic という名前になった理由は、下呂温泉で行われた Wnnコンソーシアムのテクニカルコミティの合宿で立ち上がったプロジェクトだかららしい。
Wnn4.109 で追加された辞書には、gerodic 以外に以下の2種類があった。
・JIS 第2水準単漢字辞書 JIS X0208 の漢字 3,390文字に対して 4,265エントリ ・JIS 補助漢字単漢字辞書 JIS X0212 の漢字 5,801文字に対して 12,361エントリ
Wnn4.2 (1994年10月リリース) からは、韓国語ハングル・ハンチャ変換がサポートされたため、以下の2種類の辞書が追加された。
・ハングル・ハンチャ単語辞書 32151エントリ (日本シリコングラフィクスと韓国シリコングラフィックスが開発・提供) ・ハングル・ハンチャ単漢字辞書 4888エントリ (Wnnコンソーシアムが開発)
Wnn4には、固定式辞書、登録可能辞書、逆変換可能辞書の三種類がある。それぞれの違いは以下の通り。
固定式辞書:登録不可能、逆変換不可能 登録可能辞書:登録可能、逆変換不可能 逆変換可能辞書:登録可能、逆変換可能 辞書のサイズは、当然、 固定式辞書<登録可能辞書<逆変換可能辞書 で、この差は結構大きい。また、辞書を引くスピードは、 固定式辞書>登録可能辞書=逆変換可能辞書 であるが、最近では大きさやスピードで不満を持つことは少ないだろうか ら、固定式辞書、登録可能辞書は obsolete で、辞書の形式は逆変換可能 辞書だけと思った方が良いだろう。
しかし、Linux 日本語化プロジェクトの JE 0.9.6 以降に含まれるWnn4.2 の辞書は、スペースの節約のために意図的に固定式辞書が使われていた。そのため、デフォルトのままでは逆変換はできないが、以下の操作で逆変換可能辞書に変更すれば使えるようになる。
# dtoa 固定辞書.dic > aaa
# atod 逆引き可能辞書.dic <
aaa
なお、JEの後継であるPJE-0.1では、逆変換可能辞書が提供されている。
Wnnの変換には、個人ごとのユーザ辞書や頻度ファイルが使われるが、これは通常、/usr/local/lib/wnn/dic/ja_JP/dic/usr/ (これは Wnn4の場合で、Wnn6 の場合は、wnn の部分が wnn6 となる)の下に、ユーザのログイン名のついたディレクトリが作られ、そこに置かれる。
ただしこの運用方法よりは、各ユーザのホームディレクトリの下に個人ごとのユーザ辞書や頻度ファイルを置いた方が都合がよい場合も多く、uum や xwnmo などでは、環境変数 WNN_DIC_DIR を使って、どこに置くかが設定できる。
Muleからたまご経由でWnn4/6の変換サーバを使う場合に、これをどこに置くかは、/usr/local/lib/mule/19.28/lisp/eggrc-wnn ファイルの中に記述されており、このファイルの標準的な記述により、 /usr/local/lib/{wnn|wnn6}/dic/ja_JP/dic/usr/ の下となっている。各ユーザのホームディレクトリの下に個人ごとのユーザ辞書や頻度ファイルを置くためには、このeggrc-wnnを変更するか、個人のホームディレクトリの下に、設定を変更した ~/.eggrc を置けばよい。
以下に、個人ごとのユーザ辞書や頻度ファイルをどこに置くかを選択できる「eggrc-wnnファイル(~/.eggrcファイル)の内容」 (Wnn4とWnn6の両方に対応)を示す。このファイルには、上述の「たまごをより賢くするためのパラメータを使う設定」も含まれている。
このファイルとドキュメントとを、新出尚之氏がパッケージ化し、tgzの形にして公開している。
次の2種類が有名であった。
・オムロンソフトウェアが用意したWnn6用のもの ・郵政省 通信総合研究所の藤井 哲也氏が、Wnn4/Wnn6用に 用意して公開したもの以下の4種類のWnn辞書以外に、住所からの検索HTML版なども用意されている。
(1)ひらがな住所 → 新郵便番号辞書 (2)ひらがな市町村名 → 町域名+新郵便番号辞書 (3)都道府県を除いた市町村名のひらがな → 町域名+新郵便番号辞書 (4)全角新郵便番号 → 漢字住所辞書
Wnn4に標準でついてくる辞書は、単語数に限りのあるpubdicを中心にしたものだけであるため、それが変換効率の低さに結びついている面がある。これを解決するためには、ユーザが独自にフリーの辞書を見つけて、自分の環境で利用できるようにすればよい。フリーのかな漢字変換辞書を集めたWebページも存在する。
しかし、現在、このページはほとんど更新されていないため、古くなっている部分がかなり多く見受けられる。
Wnn は「クライアント・サーバ方式」であるため、サーバ部分(jserver) をかな漢字変換のエンジンとして使うクライアントが、いくつか存在する。
その中の代表的なものを、紹介する。
Wnn の持つキャラクタ端末用の FEP で、端末の最下行を使って入力、変換を行う。wnn を180度回転させて命名された。日本語用が uum、中国語 (簡体字)用が cuum、中国語(繁体字)用が tuum、韓国語用が kuum という名前である。これらモジュールは独立しているが、それを構築するソースコードは一本化されており、コンパイルオプションで作成するモジュールが選択できるようになっている。
Wnn の FEP は、Wnn3 までの時代は、wnn (すべて小文字)という名前で呼ばれていた。しかし、システム全体を指す Wnn と、発音が同じためにまぎらわしいので、Wnn4 以降は uum と呼ぶことになった。
Wnn の持つ、X Window System 上の多言語入力システムである。Wnn が 中国語入力の機能を持つ Wnn4.1 になったのと同時に、xwnmo もマルチリンガル対応のものが開発され、1991年に公開された X11R5 から contributed software に含まれるようになった。
Wnn4.2 の xwnmo は、中国語(簡体字、繁体字)、韓国語、各種ヨーロッパ言語の入力システムとして使われ、uum とは異なり、1つのモジュールで、複数の変換サーバと接続することができる。
なお、xwnmo の語源は、次の通りである。まず、日本初の国産ウィンドウシステム GMW 上でのウィンドウ対応の FEP の名前が、wnmo であった。wnmo という名前は、「wnnもどき」と「雲母(珪酸塩鉱物、花崗岩中に含まれる)」からできていた。この wnmo が、X Window System に移植されたので、xwnmo という名前となった。
SRA の石曽根 信 氏が X11R3の時代から提供されている、X Window System 上の日本語入力システム。kinput2 は、かな漢字変換サーバとして、Wnn の jserver、Canna の cannaserver、Sj3 の sj3serv の3つをサポートする。どのかな漢字変換サーバを使用するかは、 kinput2 の起動時のオプションで決められる。ただし、コンパイル時オプションで「使わない」と指定されたサーバは、いくら起動時に指定しても使えない。
Mule/Nemacs で使われる多言語入力メソッドの一つ。ネットワーク上の変換サーバとの通信を用いて入力文字の変換を行うものである。Mule/ Nemacs の開発元の通産省工業技術院 電子技術総合研究所(通称、電総研)で開発された。
1988年6月の Nemacsバージョン2.1から、 Wnn の jserver と直接通信してかな漢字変換を行うシステム「たまご」 が組み込まれ、日本語入力が容易になった。Nemacs は1990年6月の Ver. 3.3.2 (藤娘バージョン) を最後に開発が終了し、以降は Mule がこれに取って代わっている。
1988年6月21日発行の「egg暫定版利用手引書」には、たまごの語源として、次のように書かれていた。
名前は、『沢山待たせて御免なさい』の各文節の先頭の1音である『た』『ま』『ご』をとって『たまご』といいます。Eggは『たまご』の英訳です。また卵は料理の基本材料でいろいろな料理につかえます。このことからもEggもいろいろな日本語環境を作る材料になりたい、というつもりで名付けました。ちなみに命名者は、電総研の錦見美貴子さん。
Nemacs で使われていた「たまご」を Mule 用に改良して作られたもので、正確には「たまごのたかなバージョン」である。このバージョンで追加された主な機能は、次の6つである。
・半角カナ、補助漢字が使えるMule2.3 では、日本語だけではなく、韓国語および中国語簡体字の入力に、この「たまごのたかなバージョン」を用いることができる。
・大文節変換と小文節変換が使える
・数字が何種類もに変換できる
・逆変換ができる
・単語の不使用の設定と頻度値の設定ができる
・部首入力ができる
現在、「たまごのたかなバージョン」は単に「たまご」あるいは、その英訳であるEggと呼ばれており、「たまごのたかなバージョン」などと呼ぶ人は誰もいない。
たまごっちぃ(tamagotchy) は、Emacs 20.X 用の多国語入力システム、"EGG Version 4" のプロジェクト名です。Wnn4 はもちろん、Canna や SJ3 といった変換サーバーに接続できる。つまり、「キー操作や見ためは我々が慣れ親しんだ Wnn(たまご) のまま」で、でも「変換サーバーは Canna」というようなことができる。
Mule が Emacs19 ベースのもの(Mule2.3とか)に、「たまごっちぃ」載せるのは難しいと言われている。これは、Emacs 19 と Emacs 20 で elisp の違いが大きいので。ちなみに、Emacs 20 は、Emacs と Mule に分かれていたのを統合化したもので、Emacs 20 自体が Mule 2.3 の後継である。
1989年以来、オムロンソフトウェア(株)から販売されていた「UNIX日本語ワープロ」。かな漢字変換には jserver を使う、Wnn のクライアントである。1993年には辞書として「岩波Wnn辞書」を採用、1995年からは Wnn6 の jserver を使うなど、Wnn と共に成長した。UNIX 上で wnnとの組み合わせで日本語文書を容易に編集できる手段がまだ少なかった1987年当時、オムロンソフトウェアにて開発された。
Wnn の romkan(ローマ字かな変換機構)は、クライアントごとに、違うものが使われているが、基本的に「ヘボン式ローマ字」に準拠しており、たまごもそうである。
たまごの場合、「ん」は、 n または n' または N と決められているため、「えんそく」は ensoku 「いんよう」は in'you あるいは iNyou と入力する。また、「ぁぃぅぇぉ」は 「xaxixuxexo」と入力する。ローマ字かな変換ではないが、たとえば、「Wnn」は 「ZWZnZn」のように、アルファベットの前に Z (大文字)をつけることで、表示できる。
なお、.emacs ファイルに以下の設定行を書いておけば、nn を入力した時に「ん」と変換させるようにできる。(setq
enable-double-n-syntax t) # for Egg
たまごのromkanを使っている場合、zX と入れるとスマイリー :-) が出る。他にも z + アルファベットはいろいろ記号が出るのでおもしろい。
たとえば、ASCII配列のQWERTYキーボードなら、
○ ▽ △ □ ◇ ☆ ◎ ¢ ♂ ♀ 〜 ≠ ´ ● ▼ ▲ ■ ◆ ★ £ × 【 】 ∴ ± ¨
《 》 ぜ 々 〆 zy ず じ ぞ 〒 『 』 〈 〉 zE 仝 § zY zU zI zO ↑ 〔 〕
ざ ヽ ゝ 〃 ‐ ← ↓ ↑ → ゛ ‘ \ zA ヾ ゞ → ― zH zJ zK zL ゜ “ ‖
zz :- 〇 ※ ° ′ ″ ‥ … ・ ´ zZ :-) ℃ ÷ ← ↓ 〓 ≦ ≧ ∞ ¨
のようになる。左がそのまま(z も次の文字も小文字で)入力したもの、右が shiftキーを押して( z
は小文字で、次の文字を大文字で)入力したもの。
なぜ、このようなことができるかと言うと、たまごのローマ字かな変換の規則は、$MULE/lisp/its/hira.el(ローマ字かな変換定義表)に、次のように記述されているからである。
:
:
(defrule "z1" "○") (defrule "z!" "●")
(defrule "z2" "▽") (defrule "z@" "▼")
(defrule "z3" "△") (defrule "z#" "▲")
(defrule "z4" "□") (defrule "z$" "■")
(defrule "z5" "◇") (defrule "z%" "◆")
:
:
余談になるが、romkan にからんだ「知る人ぞ知る」機能として、Wnn6 では、記号を表示させる時に、@なんとか という風に入力して変換させる。たとえば、★ なら、@ほし と入力して変換する。これは、 Wnn6 が使用している、「岩波Wnn辞書」の記号辞書にそのように記述されているからである。
たまごの各種変換キーは、$MULE/lisp/wnn-egg.el(たまごのシステムが記述されているファイル)の比較的最後の方に記述されている。このファイルに設定されている記述を読んでいると、今まで使ったことのない変換コマンドがみつかるはず。たとえば、フェンスモードの時に、 ESC k と入力すると、フェンスで囲まれた文字列がすべて片仮名に変換できること、ESC h と入力すると、平仮名に変換できることは、以下の設定行があるからである。
(define-key fence-mode-map "\ek" 'fence-katakana)
(define-key fence-mode-map "\eh" 'fence-hiragana)
ローマ字からいきなり漢字に変換するような形式のユーザインターフェースを持つ「たまご」のフロントエンドで、Emacs Lisp プログラムで書かれている。「ゆでたまご」ともいう。Miura Kin'ya氏の作。通常の「たまご」では C-\ にバインドされている、透過モードとローマ字仮名モードとの切替えが必要ないのが最大の特徴である。
以下に例を挙げる。
私は emacs を使っています。
watasiha[C-j][RET][SPC]emacs[SPC]wotukatteimasu.[C-j][RET]
途中で C-\ を押していないことに注目して欲しい。私(馬場)はこのインターフェースが大好きである。Canna においては boiled-canna というものがあるが私は試したことがない。
変換キーとしては、[C-j] で日本語変換、[RET]あるいは[C-l]で文字列を確定する。Undo (C-_) を実行すると、確定後でも変換キーを入力する前の状態に戻る。
boiled-egg は Mule の contrib に置かれている。
boiled-egg 同様、モードを切替える必要がなくなる Emacs-Lisp プログラム。西村武司@九州大学(現在、シャープ)さんの作。
boiled-egg と違う点として、入力中の日本語(ローマ字)はただちにローマ→仮名変換され、それ以外のものはそのままで表示される。また、 boiled-egg が透過モードのまま日本語を入力できるものであるのに対し、egg-mix はローマ字仮名モードのまま日本語以外のものを入力できるものである。
egg-mix ではこのように入力できる。 (Egg の日本語モードにて)よしだともこ著、オムロンソフトウェア監修 翔泳社発行 2,800円 1999年3月発行 ISBN4-88135-726-3私は emacs を使っています。 わたしは[SPC][RET][SPC]emacs[SPC]をつかっています。[SPC][RET]
変換キーとしては、Egg 同様、[SPC]あるいは[CTRL-w]で日本語変換、 [RET]あるいは[CTRL-l] で文字列を確定する。そして、[CTRL-r]が、 強制英字変換のキーとなる。日本語でないと判別しているなら、元々 は [あ]となっているモードライン表示が [★](辞書内に発見)、 [◆](ローマ字でない)、[◇](不完全なローマ字である)に変化して、 知らせる。 C-x C-k SPC 又は C-x C-k C-SPC と入力することで、直前に確定した ものを、変換キーを押す前の状態に戻す機能がある。 入手先 http://www.orions.ne.jp/snara/nisimura/egg-mix/egg-mix-0330.tar.gz
mlh
boiled-egg、egg-mix 同様、モードを切替える必要がなくなる Emacs-Lisp プログラム。mlh(multi-lingual-henkan) という名前のとおり、 日本語以外の言語にも対応した多言語入力システムである。作者はMRIの 新部 裕(にいべ ゆたか)さん。
特徴は以下のとおり。 ・入力モードがない(つまりモードを切替えないでよい)。 ・"/ "(スラッシュ、スペース)を変換のトリガとする。 ・"f/ "でひらがな変換、"k/ "でカタカナ変換など。混在も可能。 ・CtrlやShiftをあまり使わない。 mlh ではこのように入力できる。私は emacs を使っています。 watasiha/emacss/wotukatteimasu./[SPC]
このように、一気に英単語混じりの日本語文章を入力して変換できることと、 Undo (C-_) を実行すると確定後でもスペースキーを入力する前の状態に戻る ことが、便利な点である。Wnn 以外にも、Canna、Sj3 にも対応している。 入手先 http://axion-gw.ee.uec.ac.jp/japanese/tools/emacs/mlh.html
omelet (おむれっと)
Emacs19ベースのMuleで親指シフトをエミュレーションする、Emacs-Lisp プログラム。たまご(egg)とWnn6またはWnn4が必要。 1995年10月に箕浦逸史さんによってfj.sources に投稿された。 機能強化された omlet 1.17 が、1998年10月にリリースされている。
入手先 http://www.eva.hi-ho.ne.jp/~minoura/kbd/
7.関係ページへのリンク編
http://www.omronsoft.co.jp/SP/mobile/history.html オムロンソフトウェア(株)のWebページにある「Wnnの歴史」 http://www.remus.dti.ne.jp/~endo-h/wnn/ Wnn4.2/Egg を賢くするものたち http://www.infonets.hiroshima-u.ac.jp/~taoka/FreeBSD/Wnn/ 田岡智志さんのWnnのページ
8.書籍編
「Wnn+GMW入門」 KABA 著 岩波書店、3,500円 1990年9月発行 ISBN4-00-005078-8 「UNIXの日本語処理が分かる本 -- 最新Wnn活用ガイド --」栗林 博 監修 よしだともこ著 日刊工業新聞社 3,800円 1993年5月発行 ISBN4-526-03321-9 「UNIX日本語環境」 松田晃一・暦本純一共著 アスキー出版局 2,200円 1995年3月発行 ISBN4-7561-0354-5 「UNIXとX Windowの日本語環境」 林秀幸著 日刊工業新聞社 2,700円 1995年9月発行 ISBN4-526-03769-9 「マルチリンガル環境の実現 -- X Window/Wnn/Mule/WWWブラウザでの多国語環境 --」 錦見美貴子+高橋直人+戸村哲+半田剣一+桑理聖二+向川信一+吉田智子=著 プレンティスホール出版 4,300円 1996年9月発行 ISBN4-88735-020-1 「Linux/FreeBSD日本語環境の構築と活用」 佐渡秀治、よしだともこ著 ソフトバンク 2,600円+税 1997年12月発行 ISBN4-7973-0480-4 「PC-UNIX日本語環境構築入門」荒井誠、佐々木勝彦、山口聡著 秀和システム 2,300円+税 1998年5月発行 ISBN4-87966-786-2 「Linux/FreeBSDによる実用日本語環境構築入門」 フレンドリー&トップマネジメントサービス著 LOCUS発行、主婦の友社発売 3,600円 1998年9月発行 ISBN4-07-390716-6 「Wnn6徹底入門 〜PC-UNIX日本語環境:Wnn6+eWnn+dp/NOTE公式ガイドブック〜」
以下、発表されたのが古い順番に並べてある。 櫻川貴司:「開かれた日本語入力システム Wnn」, bit Vol.19, No.10 (1987) pp.13-23. Masami Hagiya, Takashi Hattori, Akitoshi Morishima, Reiji Nakajima, Naoyuki Niide, Takashi Sakuragawa, Takashi Suzuki, Hideki Tsuiki, Taichi Yuasa:"Overview of GWM+Wnn System", Advances in Software Science and Technology 1, 1989. 鈴木 隆、竹岡尚三、立木秀樹:「連載:Wnn入門」, UNIX MAGAZINE (1989-1990) 栗林 博、桑理聖二:「Xウィンドウ用標準日本語入力フロントエンド Xwnmo」, 日経エレクトロニクス 1989.12.25 no.489 pp.169-178. 仲 興国、栗林 博:「UNIX ワークステーションにおける中国語入力環境 -cWnn」, 第16回JUS UNIX シンポジウム論文集, Nov.1990. Yutaka Kataoka, Masato Morisaki, Hiroshi Kuribayashi, Hiroyoshi Ohara: "A Model for Input and Output of Multilingual Text in a Windowing Environment", ACM Transaction on Information System, Vol.10, No.4, Oct.1992, pp.438-451 Nishikimi,M., Handa,K., and Tomura,S.:"Mule:MULtilingual Enhancement to GNU Emacs", Proc. of INET '93, August, 1993. 藤原博文:「新Wnnかな漢字辞書ができるまで」, Software Design, (1993.3) pp.42-49. よしだともこ:「Wnn入門・活用ガイド」, Software Design, (1993.3) pp.30-41. UUKT:「連載:平成こだわり倶楽部 LaTeX vs. ワープロ(dp/NOTE)派」, Software Design, (1993.5) pp.47-53. よしだともこ:「Wnnを使いこなす 品詞編、カスタマイズ編」, Software Design, (1993.6) pp.80-89. よしだともこ:「図形機能付UNIX日本語ワードプロセッサ dp/NOTE バージョン2」, Software Design, (1994.1) pp.121-128 よしだともこ:「Nemacs、Mule の日本語変換環境 −たまご− を賢く使う編」, Software Design, (1994.2) pp.108-121. 長澤恒也:「dp/NOTE Ver.2.1 一太郎に似たUIを持ちUNIXのビギナーにも 気楽に勧められる日本語ワープロ」, UNIX USER, Vol.2 No.3 (1994.3) pp.25-30. よしだともこ:「PC UNIX の救世主 省メモリ型Wnn、WnnFree」, UNIX USER, Vol.3 No.8, (1994.8) pp.34-39. よしだともこ:「X11R6の国際化について」 (Software Design ,1994.10) 孤蓬、よしだともこ:「特集:日本語環境、いまX11R6に移行するとき」, UNIX USER, Vol.3 No.11 (1994.11) pp.22-53. 胡桃、藤沢信男:「連載:Setting Up FreeBSD 日本語環境編」, UNIX USER, Vol.4 No.5〜No.8 (1995.5 〜 1995.8). よしだともこ:「新しくデビューしたWnn6について紹介します!」, Software Design, (1995.6) pp.161-168. よしだともこ:「かな漢字変換システム Wnn6」, UNIX USER, Vol.4 No.7, (1995.7) pp.31-38. 川原 稔: 「連載: what is UNIX 〜Wnn6編〜」, UNIX USER, (1995.12〜1996.3) よしだともこ:「Wnn6 for Linux/FreeBSD の誕生」, LINUX JAPAN, Vol.3 1997 Summer pp.241-244. よしだともこ:「Wnn6 for Linux/FreeBSD の誕生 パート2」, LINUX JAPAN, Vol.4 1997 Autum pp.210-215. よしだともこ:「日本語ワープロ dp/NOTE for Linux/BSD ついに登場」, UNIX USER, (1997.12) pp.13-20. Software Design特集:「Linux&FreeBSD日本語環境構築術」, Software Design, (1998.5) pp.15-81. 時乗洋昭/田岡智志:「PC-UNIXで使えるアプリケーション大集合 (3)商用日本語かな漢字変換システムを使う」, Software Design, (1998.9) pp.121-134. 田岡智志:「さらにWnn6をカスタマイズする」, Software Design, (1998.10) pp.161-167. よしだともこ:「連載:Linuxオフィスツール新時代(3)(4)、eWnnとWnn6 Ver.2」, LINUX JAPAN, (1999.1,1999.3). 佐渡秀治:「連載:Happy UNIX Life、日本語環境を構築しよう(1)〜(4)」, UNIX USER, (1999.4〜1999.7). 川原 稔:「連載: what is UNIX、エディタXEmacs(3)ウィンドウ分割と 日本語処理」, UNIX USER, (1999.8). 徳永拓之:「特集:最適な日本語入力環境を発掘せよ」, UNIX USER, (2004.5).
1993年5月発行の「UNIXの日本語処理が分かる本 -- 最新Wnn活用ガイド --」の中に、Wnn の語源の元となった発言をされた中野秀治さん(オム ロン株式会社)の「Wnn 開発の思い出と今の気持ち」が掲載されていた ので、ここに引用する。
「カツドンと Wnn」 1992-11-19 中野秀治 Wnn がこれほどまでに普及するとは、開発当時思いもよらず、開発者 のひとりとして嬉しい限りです。開発者といっても、私は企業側の人 間として開発メンバーのお尻をたたくのが主な役割でした。たしかに、 大学と企業というまったく文化の違う世界の橋渡しをするのは、やは り苦労がありました。開発に当たった各メンバーもそれぞれ苦労があっ たことと思います。 しかし、当時私には楽しみがありました。それは、初期の Wnn 開発現 場の京大数理解析研究所の近くに、大学生協の食堂があって、そこの カツドンが実においしかったということです。毎週これを食べるのが 楽しみで通っていたようなものです。 動機はなんであれ、結果がよければOK。みんなの思い入れをたっぷ り注いで、カツドンいや Wnnを味わい深いものに育てていって欲しい と思います。
また、オムロン株式会社IT研(Information Technology Research Center)の 増田清さんのホームページ上に、「Wnnシリーズの開発裏話と言い訳け」 という文章が掲載されている。
---End of "Wnn 関係用語集"---