2004年6月号掲載 よしだともこのルート訪問記第92回 テキスト抽出をコア技術とした商品群でより良いネットワーク社会を
|
畑中豊司(はたなか とよし) 株式会社 データ変換研究所 代表取締役 社長 |
株式会社 データ変換研究所とは http://www.dehenken.co.jp テキストファイルこそ再利用の可能性の最も高いものであるという信念のもと、テキストの文字コード変換、Microsoft Officeのデータからのテキスト抽出、PC UNIX用新規ソフトウェアの創造などを目指して、1999年に有限会社として設立した。2000年には、株式会社に組織変更をはたしている。 2002年には、オムロンソフトウェア(株)とテキスト処理プログラムの販売提携を発表。同年に、Windows/Solaris/Linuxサーバー上にある大量の文書ドキュメントに対して、高速なキーワード検索を行える全文検索エンジン「Akao」を公開。小規模LAN環境向け「Akao パーソナル」も開発した。2003年には、高速パターン検出ソフトウェア「ParaGREP」の販売を開始している。 また、設立当初からパッケージソフトとして、Microsoft WordなどWindowsの文書ファイルからテキスト情報を抽出するフィルタプログラム「DocCat」を販売し、2年後には、BMP、JPEG、PNG、TIFFなど画像ファイルからテキスト情報を抽出する「GazoCat」を開発。 UNIX系テキスト情報自動抽出ソフトウェア技術で、京都府知事より平成14年度の京都中小企業優秀技術賞を受賞。また、(財)京都産業21注1において副賞を受賞した。 |
辞書a(30語) | 辞書b(1万語) | |
---|---|---|
ParaGREP | 0.106 | 0.112 |
grep | 0.085 | 30.575 |
$ cat doc1 doc2 > doc.all |
私のUNIX #18 〜畑中豊司さんのUNIX〜●OS環境:Fedora Core最近Fedora Coreに変えました。それまでは1年ぐらいRed Hat Linux 8.0でした。それよりもっと前はFreeBSD 1.1.6のころぐらいで、かなり長かったと思います。Fedora Coreでは、ネットワークやら環境設定やらをGUIで設定できることもあって、書籍を片手に画面コピーの案内を読みながら操作しています。Fedora Core導入の前にPlamo Linuxなどもインストールしてみましたが、古いCUIのものは、だんだん面倒になってしまっていて、ついていけなくなってしまったみたいです。昔は苦ではなかったのですが。●ウィンドウマネージャ通常、Windows 98からターミナルログインを行っています。ドキュメント作成の際は、WindowsでMicrosoft OfficeやInternet Explorerを使いますが、プログラム開発では、Linux上でCで開発するというスタイルを取っています。●シェル:bash最近は、bashを使っていますが、スクリプトを組むときはcshでないと組めません。あまり面倒なことはしなくなっていますが、プロセスをフォークしすぎて、きれいに消さなければならなくなった場合のスクリプトを最近作りました。必要に迫られてという感じです。●シェルの設定aliasでhをhistoryにすること、aliasでaを開発最新のDocCatを起動するように設定すること、umaskを002にして、会社内の開発グループで読み書き可能にすること、PATHをDocCat開発用のためのbinを指すように設定することです。●エディタソフトウェア開発用にはviを使います。LinuxおよびUNIX上で、日本語ファイルを作成したり編集したりするときがあります。Readme.txtや、Relnotice.txtなどを書きますが、このときのエディタは「デ変研TEXT」を使います。私の自作テキストエディタで、これを使っています。1999年にベクターからシェアウェアとして販売を開始しましたが、DocCatが誕生してからは販売はやめています。そもそも以前勤務していたオムロンソフトウェアにいたときは、UNIX用ワードプロセッサのdp/NOTEを開発していまして、そのときに、UNIX上で日本語の入力に利用していました。このキーバインドに慣れてしまっていて、その習性に答えてくれるエディタがないと不便なのです。それで、デ変研創業段階において、エディタであるデ変研TEXTを自作してしまいました。 テキストの文字コードについては、EUC/シフトJIS/JIS/UCS2/UTF8に対応していて、Uuicodeを問題なく可視化し、編集・保存できます。Fedora CoreのターミナルがUTF8しか受け付けないみたいで、デ変研TEXTを改造してターミナル出力をUTF8にすることで、快適に日本語入力ができるのではないかともくろんでいます。いずれこの自己満足課題に挑戦してみたいと考えております。普段はTera Termなので不便は感じていません。 ●そのほかのこだわり私のような、昔取ったきねづかタイプのプログラマにとっては、Perl、Ruby、PHPなど、新しいものにはついていけなくなっています。いまなおCを使っていますし、これからもCでいくと思います。年を取ると、プログラムの修正・デバッグは画面を見て、変更して、動かしてみてといったことをしなくなりました。プログラムを紙に印刷して、喫茶店でコーヒーを飲みながらあれやこれや修正の印を入れたり、コーディングしたりします。ただその代わり、それを打ち込んで動作させると、自分でも驚くほど一発で動くのです。ははぁ、さすがですねと1人で喜んでいます。また、プログラム仕様書もきちんと書くようになってきました。これがないと、テストのポリシーというか方針というか、それが定まらないことにようやく気付いたのです。 |
[前回記事] | [トップ] | [次回記事] |