[前回記事] [トップ] [次回記事]

2002年12月号掲載 よしだともこのルート訪問記

第74回 社内でのオープンソースの導入がスムーズだった理由とは
〜住友製薬株式会社 ゲノム科学研究所〜

今回は、大阪市此花区の住友製薬株式会社 ゲノム科学研究所(以下、ゲノム研)を訪ね、ゲノム研でコンピュータ全般の管理、データベースなどのインフラ整備を担当されている樋口千洋(ひぐち ちひろ)さんから、お話をお聞きしました。なお、取材には総務人事室 広報担当の森田 敏(もりた さとし)さんにも同席していただきました。

樋口千洋さん
住友製薬株式会社 研究本部。ゲノム科学研究所でバイオインフォマティクスを担当し、さまざまなデータベースやネットワークなどのインフラの整備を行っている
森田 敏さん
住友製薬株式会社 総務人事室 広報担当
※所属部署・肩書は取材当時(2002年11月)のものです。

■新薬作りの現場

よしだ(以下、Y):本日はお忙しいところ、取材に応じていただき、ありがとうございます。まずは、住友製薬注1という会社について、簡単に紹介していただけますか?

森田さん(以下、M):住友製薬は、薬局や薬店では扱っていない医療用医薬品のメーカーであるため、一般の方はあまりご存じないかもしれませんが、研究開発から販売までを一貫して行う、日本では中堅クラスの製薬会社です。住友製薬は、日本有数の総合化学会社である住友化学と、専門商社である稲畑産業の医薬事業部門が分離、合体して1984年に設立されました。比較的新しい製薬会社ですが、医薬事業の歴史は古く、昭和11年には医薬品の製造を開始しています注2。これは、原料からの一貫製造としては日本初です。その後も、住友化学から受け継いだ合成技術に加え、バイオテクノロジや最新のゲノム科学技術を駆使して、世界に通用する信頼性の高い医薬品を研究開発、販売してきています。

Y:具体的には、どのような薬ですか?

M:現在の主要製品を紹介しましょう。まず、皆さんにもなじみのある病気の治療薬としては、高血圧治療剤、花粉症などのアレルギー疾患治療剤、骨粗鬆症治療剤、心の病気から起こる体調不良を治療する抗不安薬などがあります。また、最近話題になっているC型肝炎などの治療薬インターフェロン-α製剤や、主に重症感染症の治療に使用されるカルバペネム系抗生物質などもあり、いずれも特徴のある医薬品です。
 研究開発では、ゲノム創薬に積極的に取り組んでいます。2000年にゲノム科学研究所を設立して先端的な研究を行うとともに、複数の世界的ゲノム関連企業の遺伝子関連データベースを活用することにより、新薬創製のターゲッ トとなる遺伝子を探索するなどゲノム関連研究を進めています。

■ゲノム研に構築された研究環境

Y:ゲノムについて簡単に紹介していただけますか?

樋口さん(以下、H):ゲノム(Genome)というのは、ある生物が持っている遺伝情報全体のことで、遺伝子(Gene)と 染色体(Chromosome)から生まれた造語です。人間のゲノムをヒトゲノムといいます。
 2001年の春、セレラ社や国際チームによってヒトゲノム全体が解読され注3、ヒト遺伝子の総数は約3万〜4万と発表されました。これだけでも大変な成果でありますが、これはたとえていうと、ジグソーパズルの全ピースが与えられたということにすぎません。これらの遺伝子が実際どのように機能するかはまだまだ未知の領域です。そのため、各国でこの巨大なジグソーパズルを解いていく作業が開始されたわけです。
 ゲノムがこれだけ注目されるのは、ゲノム創薬による画期的な新薬の開発が期待されるからであり、官民交えてさまざまなプロジェクトが進行していますし、膨大な研究開発費用が投入されています。なので、ゲノム研究は非常に大きなビジネスチャンスともなっていますので、新聞などの各メディアが注目するわけです。

Y:樋口さんは、ゲノム研究のコンピュータ全般の管理をされているということですが、どのくらいの規模なのでしょうか?

H:サーバーとして、SGIが1台、Sunが1台、LinuxのPCが5台で、研究用のクライアントはWindows NTが10台です。管理内容は、大規模なコンピュータシステムから、実験装置に付随するものまでさまざまです。また、これらの機器は、ネットワークでつながれていますから、関連するネットワークの管理も業務に入ります。
 ゲノム科学研究所自体には約50名の研究員がいますが、ここ春日出と宝塚に分かれているので、私が管理している春日出の研究環境を利用しているのは約30名です。ただし、各自が使っているクライアントは、別部門の管理となります。

Y:なるほど。全社的な、いわゆるOA環境をサポートする部門は別にあるということですね。樋口さんが管理されているサーバー群は、巨大なハードディスク容量を持つのでしょうね。

H:ゲノム研究には、ゲノムの膨大な遺伝子配列を格納するための大容量のストレージが必要になります。現在、容量は1TB程度ですね。ゲノム研究のデータは非常に膨大であると同時に、その扱いには慎重さが要求されます。

Y:それが、Linuxの載っているPCだけではなく、SGIやSunが利用されている理由でしょうか?

H:仕事の種類で、リソースは使い分けています。量をこなさないといけないものなどは、安いハードウェアのLinux上で、どんどこどんどこ計算させることもあります。
 たとえば、各FTPサイトに格納された遺伝子配列は、たいてい圧縮ファイルです。これはファイル転送の際にネットワークに負荷をかけないためですが、圧縮ファイルを復元するには高いCPUパワーが必要になります。こうした処理のためにワークステーションのCPU能力を費やし、本来の解析システムの処理能力を低下させるのはちゅうちょしますが、Linuxであれば手軽に使用できます。
 そして、配列データベースは日々、肥大するので、それらを格納するためのストレージや解析を実施するための演算能力など、計算機資源はますます必要になります。何千万円もする高価な技術計算ワークステーションは簡単に導入できませんが、LinuxであればPCであるため、数十万円で買え、比較的容易に導入できるというメリットがあります。

Y:ゲノム研究には、インターネットが必須注4だといわれていますね。

H:はい。インターネットはゲノム研究に必須のインフラです。ヒトゲノムがすべて解読される前から、Drosophila(ショウジョウバエ)やC.Elegans(線虫)などいくつかの全ゲノム配列はすでに解読されており、これらの配列は全世界のサーバーに格納されて、FTPで取得して利用されていました。つまり、この分野では、HTTP以前から、GopherやFTPサーバーを介して、多くの情報提供が実施されていたわけです。
 逆にいえば、インターネットがこれだけ普及したのも、WWWが商用化されて広く一般に浸透する以前の学術ネットワークの時代に、ゲノムやそのほかの分野で、しっかりと活用されてきたということがあげられるのではないでしょうか。
 ちなみに、オライリー・ジャパンから発行されている『実践バイオインフォマティックス 〜ゲノム研究のためのコンピュータスキル』(Cynthia Gibas、Per Jambeck 著、水島 洋 監修・訳、明石 浩史、またぬき 訳)の本の表紙に描かれている虫が、C.Elegansです。コンピュータ、とくにUNIX関連専門書の出版社であるオライリー・ジャパンから、ゲノム研究のためのコンピュータの本が出版されるということ自体、この分野の研究にインターネットやUNIXが密接にかかわっている証拠だと思います。

■ゲノム研でのLinuxの活用について

Y:この研究所で利用されているUNIX関係のツールの活用について、具体的に紹介していただけますか?

H:遺伝子解析の場で頻繁に利用するのは、FASTA(長い配列の類似性を保っているものを検索)、BLAST(局所的に高い類似性を有するものを検索)などの相同性検索ソフトウェアや、HMMERなどの隠れマルコフモデル検索ソフトウェアです注5。これらをLinuxでコンパイルして利用しています。大量の解析には、GUIを駆使した解析システムを対話的に利用するよりも、コマンドラインによるバッチ処理のほうが効率的です。また、BioPerlやBioRubyなどで提供されるライブラリを使うことで、簡単に大量の遺伝子配列の検索が実施できます。
 さらに、DNAチップ解析を効率的に実施するためには、アノテーションのデータベース構築が必須なのですが、Linuxをベースとして、PostgreSQLやPHP、Perlなどを用いて、容易にかつ高性能の検索環境が構築できました注6
 当初、データベースの構築には、ExcelやAccessで試作したのですが、格納すべきデータの量が大きすぎてうまくいかず、PostgreSQLやPHP、Perlなどの利用に切り替えました。結果的には、Web上で動作することから、研究所内のネットワーク上にあるすべてのPCから特別な準備なく利用可能となり、所内で非常に重要なツールになりました。

Y:オープンソースのツールを導入するメリットは大きいでしょうね。

H:データベースを構築する際、商用のものではなく、オープンソースのデータベース管理システムを選択した理由は、簡単に導入できるという点ですが、構築したものが、将来にわたり永続的に利用されるとするならば、その後の保守やサポートの問題が発生することを想定しなければいけません。簡単に導入できることで初期投資が省けたとしても、トータルで考えれば、決してコストが低くならないことに注意が必要です。むしろ、オープンソースなデータベースを選択するメリットは、突出した性能や使いやすさを得られることと、コミュニティに積極的に参加することによる相互の情報交換にあると考えています。

Y:樋口さんが、趣味でLinuxコミュニティにかかわっておられたこと、たとえばPlamo Linuxの開発に以前から協力されていたことが、仕事にも役に立ったということですね。

H:どこの企業でも同じだと思うのですが、いきなり業務として取り組めないことも、社員の趣味を足がかりとして、それが主流になったら業務に取り入れることもできるのではないかと思っています。Linuxコミュニティにかかわるようになった当時注7は、ただ、ワークステーションが欲しかっただけで、Linuxがここまで使い物になるとは思っていませんでした。でも、とっかかりは、研究に使いたい、使えるだろうという期待感でしたね。

Y:期待感を持って目配りしていた時期が長かったことで、実際、必要になったときに、「これをここに使って、あれはあそこに使って」という、正しい判断ができた、いい感じですね。

H:そうですね。LinuxやPostgreSQLなどのオープンソースを積極的に使うことで、低コストで成果が上がったことは間違いないでしょう。「生物の研究にいかにPerlが役に立つか」注8というのは、書籍もでているほどですし、ゲノムの研究には、awkとPerlは必須です。「データ配列の中にどういうパターンがあったら、どういう特性があるか」を探すときに、正規表現でポーンと探せるのは非常に楽なんですよ。同じことを、C言語で書こうと思うと、面倒臭いでしょうから。

Y:なるほど。たとえば、どのように利用するのでしょうか?

H:タンパク質関連の情報データベースに、Prositeと呼ばれるモチーフ(機能部位)データベースがあります。フラット形式のデータベースで、リスト1はその1レコードを示しています。
 あるアミノ酸配列中に、「S-G-x-G」というパターン、すなわち、「セリン(Serine)−グリシン(Glycine)−任意のアミノ酸−グリシン(Glycine)」という並びが認められたとき、Prositeのデータベースから「S-G-x-G」を検索し、リスト1の情報からその部分はGlycosaminoglycan attachment site(グリコサミノグリカン結合部位)であると判定できます。
 このPrositeのデータベースを検索するソフトウェアが、awkのスクリプトで提供されています。アミノ酸配列を先頭から走査し、「S-G-x-G」というパターンが見つかったら、ここは「Glycosaminoglycan」だと表示するawkスクリプトが用意されているということです。このパターンは簡単ですが、中には複雑なパターンで定義されるものもありますので、文字列を柔軟に扱えるawkやPerlが活躍します。

Y:確かに、便利ですねぇ。

H:この分野で重宝されているだけではなく、情報検索に携わっている人の中でも、awkやPerlを勉強して情報検索に役立てたいという人は少なくないようですよ。

リスト1 Prositeのデータ例
ID GLYCOSAMINOGLYCAN;RULE.
AC PS00002;
DT APR-1990(CREATED); APR-1990(DATA UPDATE);APR-1990(INFO UPDATE).
DE Glycosaminoglycan attachment site.
PA S-G-x-G.
RU Additional rules:
RU There must be at least two acidic amino acids(Glu or Asp)from -2 to
RU -4 relative to the serine.
CC /TAXO-RANGE=??E??;
CC /SITE=1,glycosaminoglycan;
CC /SKIP-FLAG=TRUE;
DO PDOC00002;
//

■研究所での環境構築の特徴と苦労話

Y:樋口さんは、以前はインターネットの管理者でもあったそうですが、インターネットの管理者とゲノム研究の管理者とはどんな風に違いますか? 両方に詳しいことが、どのように役立っていますか?

H:インターネットの管理者であれば、まず組織のネットワークを支障なく運用し、障害が発生したら速やかに復旧させることが望まれます。いまではインターネットがそれぞれの企業にとってライフラインの位置にありますので、使えないと企業の業務がマヒしてしまいます。また、安定運用が最優先なので、できるだけマシンやネットワークに負担をかけないように配慮します。ただ、それだけだと次世代の技術に対応できないので、先に述べた点を考慮しつつ新技術の検討を行い、時機を見て適用します。
 ゲノム研究の管理者の場合、立場は少し異なります。安定して利用できるに越したことはありませんが、それよりもほかに先んじて、さまざまな知見を得ることにあります。そうなると、必要に応じてさまざまな種類のコンピュータが導入されますので、広く管理する必要があります。先に述べたように、LinuxやPostgreSQLなどを積極的に用いた社内のシステムは非常に有益で、コストの面からもなくてはならない存在になっています。
 つまり、研究所の場合は、基幹業務とは違って、より早く新しいものを取り入れなければならないことが多いので、オープンソースのソフトウェアがこちらの要求に答えてくれやすいという面があり、強力な道具になり得たことに感謝することが多いですね。

Y:Windowsだけに目を向けていたのでは、作れなかった環境ができていますよね。

H:私は決してWindowsは否定していません。用途に応じて使い分けていくことが大切かと思います。現状使えるものをうまくアレンジして利用するのが賢いユーザーだと思っています。実際に実験解析装置のコンピュータシステムはWindowsであることが少なくなく、遺伝子関連のシステムも例外ではありません。そうすると、当然Windowsの管理も支障なくできないといけません。ところがWindowsというのはインストールも大変だし、ネットワークの挙動も不可解なことが多いので、できれば避けて通りたいというのが偽らざる心境です。さらに困るのは、コンピュータのエキスパートは当然Windowsを熟知していると思い込まれていることです。

Y:Windows対応に苦労されているネットワーク管理者の話は、取材先でもよく聞きます。

■すでに実績があったことで導入はスムーズに

Y:何か苦労話を紹介していただけませんか?

H:世の中でITのエキスパートが不足している点でしょうか。遺伝子解析システムはネットワークと密接な関係にありますので、業者はまず土台となるネットワークシステムに対する的確な知識を有していることが必要不可欠なのですが、なかなか難しいです。業者の方にファイアウォールを理解してもらうのに、何日もかかってしまったこともあります。

Y:ネットワークに詳しいだけでは、ゲノム研の管理者はできないし、かといって、ゲノムに詳しいだけでもダメで、両方に精通している必要性を感じました。樋口さんの専門分野は何でしたっけ?

H:量子(Quantum)化学です。ゲノムは境界領域なので、計算機の分野の人がゲノムの研究をしているケース、あるいは逆のケースも、そう珍しいことではありません。私も、つい最近までは、全社的なインターネットの管理とゲノム研究の管理との兼務でした。両方の知識があることで、役に立つ場面は多いです。たとえば、ある解析が終了したらメールで連絡できるようになっていたとします。その解析システムがUNIXのMTAを想定しているのであれば、その配送ルールを書かなければなりません。商用ワークステーションの場合、たいていはSendmailですので、sendmail.cfを書く必要があります。といってもたいした作業ではありませんが、実際にはなかなかできる人がいません。少なくとも解析ソフトを販売するベンダーはお手あげです。こうしたことが、さっさと処理できないと、研究に支障をきたします。
 また、大量の配列データを扱う関係上、社内ネットワークでの運用にも非常に注意します。このため、社内全体のインフラを管理する部門と密な相談をしながら実施する必要があります。この場合の話し合いは、コンピュータ/ネットワークの専門用語が使えるのでスムーズです。それと、住友製薬では、InCyte、GeneLogic、LifeSpanといったメーカーのデータベースを導入していますが、この際、管理者はファイアウォールやプロキシの知識が必須になります。
 そのほか、外部組織との重要なメールのやりとりに、PGPを使ってメールの暗号化を実施することもあります。現在、ゲノム研を含む研究本部で4〜5人がPGPを利用しています。このあたりにも、私のインターネット管理者の知識や技術が生かされます。
 それと、やはり先に述べたオープンソース手法の利用でしょうか。ほかの製薬会社の方と話す機会があるのですが、私たちのようにLinuxを使っているところは少ないようです。その理由は、会社の中にえたいの知れないコンピュータシステムを導入して障害が発生するのを懸念しているとのことで、会社によってはネットワークにつながせてもらえないというところもあるようです。ところが、住友製薬の場合は、私が早い時期からLinuxやBSDでメールサーバーやWebサーバーを運用するなどして、すでに社内で認知させていました。ですから、ゲノム研究にLinuxを使うのは何ら障害がなかったわけです。

Y:なるほど。それが、Linuxなどのオープンソースが、とてもスムーズに研究所内に導入できた理由だったのですね。今日は、貴重なお話をありがとうございました。


オープンソースで行こうの図
注1 住友製薬株式会社
詳しくは、http://www.sumitomopharm.com/参照。ちなみに、甲子園球場で、左翼ポール付近にホームラン(大ファールでも可)が飛べば、住友製薬の広告が見つかるそうだ。

注2 昭和11年には医薬品の製造を開始
今回、筆者が訪問したゲノム科学研究所(大阪市此花区春日出)は、住友化学時代に医薬品の製造を開始したところとほぼ同じ場所。ちなみに、その隣にUSJ(ユニバーサル・スタジオ・ジャパン)がある(が、残念ながら、取材ついでに遊んでくることはできなかった)。

注3 ゲノムが解読される
「ゲノムが解読される」とは、DNAに含まれる4種類の塩基の配列を読むこと。DNAは糖とリン酸基と環状の塩基部で構成されており、塩基には、アデニン(A)、グアニン(G)、シトシン(C)、チミン(T)の4種類がある。ヒトゲノムは、約30億個の塩基対で構成されていて、これを文字に見立てると、新聞約25年分の情報量に相当。遺伝子の部分はこの3-5%にすぎないが、この遺伝子が、生命の誕生、維持、遺伝に不可欠なタンパク質の設計図となっている。

注4 ゲノム研究には、インターネットが必須
ゲノムの予備知識を得るために、取材前にあわてて読んだ本『ヒトゲノム 〜解読から応用・人間理解へ〜』(榊 佳之 著、岩波新書)に、そう書かれていた。

注5 Linuxでコンパイルして利用
それぞれのソフトウェアの参照先は以下のとおり。
FASTA ftp://ftp.virginia.edu/pub/fasta/
BLAST http://www.ncbi.nlm.nih.gov/BLAST/
HMMER http://hmmer.wustl.edu/
PostgreSQL http://postgresql.org/
PHP http://www.php.net/

注6 この研究所でのUNIX関係のツールの活用について
『Linuxの特徴とデータベース系アプリケーションの活用』(樋口千洋 著、日本化学学会 情報化学部会 会誌2002年Vol.20 No.2掲載)の論文で紹介している。

注7 Linuxコミュニティにかかわるようになった当時
樋口さんのLinuxコミュニティとのかかわりは古く、1993年のカーネル0.97からで、1995年に来日したLinusにも会ったそうだ。いまも趣味でPlamoLinuxの開発やドキュメントの和訳コミュニティに参加しておられる。筆者は、1998年12月の京都での「LinuxConference'98」の企画とパネル参加、1999年5月の「EricS.Raymond京都講演会」の企画と運営などで、樋口さんとコミュニティ活動をご一緒した。

注8 「生物の研究にいかにPerlが役に立つか」
『Perlリソースキット−UNIX版』Futato、Irving、Jepson、Patwardhan、(Siever共著、イエローレーベル、山本浩訳、オライリー・ジャパン)含まれるにPerlユーティリティガイドの203ページにヒトゲノム計画におけるPerlの役割」「が紹介されている。

私のUNIX #2 〜樋口 千洋さんのUNIX〜

●OS環境:Plamo Linux

 学生時代に使ったUNIXが、PDP-11上の2.9BSD(?)だったので、90年代初頭にLinuxと386BSDが出現したとき、当然BSDを使うつもりでいましたが、当時日経MIXで活躍されていた生越昌己さんらの影響でLinuxを使うようになりました。その後、小島三弘さんと親しくなり、仕事でもPlamo Linuxを使うようになりました。
 バイオインフォマティクス研究の場では、さまざまなプログラムをソースでコンパイルする必要がありますし、きちんとドキュメントを読まないとインストールできても使うことができません。そのため、パッケージ管理がしっかりしているシステムよりも、Slackwareベースの見通しのよいPlamo Linuxのほうがソースからコンパイルしたソフトウェアの導入もしやすく、自分にはとてもあっています。

●シェル:用途に応じて使い分ける

 見栄を張ってscsh(Scheme Shell http://www.scsh.net/)と書きたいのですが、後述の不精な性格に逆らうことなくPlamo Linuxがデフォルトにしているtcshをログインシェルとして使用しています。ただし、シェルスクリプトについてはbashを使います。bashはシンタックスにちょっと違和感がありますが、リダイレクトなどでファイルディスクプリタを自在に操作したいときにはbashのほうが適していると思います。zshもいいとは思うのですが、不精なので……^_^;;

●シェルの設定:とくになし

 根が不精なので何も考えずにそのまま使っています。それというのもPlamo Linuxの設定ファイルは、PJEのそれを源流として信頼できる方々がチューニングしてくれた設定なので、とくにこちらであえて設定する必要もないと考えているからです。また、変にトリッキーな設定をしてしまうと、IRIXなどほかのUNIX環境を操作する際に戸惑ってしまうので、あまり凝った設定はしないようにしています。
 なお、ネットワーク関係や、さまざまなシステムの環境変数は、/etc/profileや/etc/csh.loginの中で設定しています。

●使うエディタの種類:Emacs

 Emacsですね。SymbolicsというLISPマシンを使ったことがあって、Zmacsの使いやすさに傾倒しました。以来ずっとEmacsです。ほかに、「cat > foo」もよく使います(^_^)。ただ会社でUNIXを使う場合、WindowsのTelnet.exeしか使えず、スクリーンエディタの制御が崩れてイライラすることがままあります。そのため、最近はエスケープシーケンスに依存しないexを使えるようにしておいたほうが、つぶしが利くのではないかと思うようになりました。

[前回記事] [トップ] [次回記事]

Last modified: Mon May 21 13:52:26 JST 2007 by Tomoko Yoshida