エボラ出血熱、インフルエンザ、HIV――人類が直面する困難に立ち向かう核酸医薬品の開発に、長浜バイオ大学の池村淑道 客員教授・名誉教授と和田健之介 教授を中心とする研究グループが貢献している。およそ30 億個の塩基で構成されるヒトゲノムをはじめ、地球上に存在する多様な生物のゲノムを解析し、ゲノム配列に潜んでいる多様な情報や有益な情報を次々と解き明かしている。ゲノムという生物が持つ“ビッグデータ”に着目した、人跡未踏のチャレンジを紹介しよう。


『言わば、エボラの“ブレーキ”をデザインする挑戦です』

  ――池村先生と先生の研究グループの取り組みについてご紹介いただけますか。
     
  ゲノム科学、ゲノム情報学、ゲノム進化学の分野における、実験と情報解析を統合した研究に幅広く取り組んでいます。高性能なコンピューターを使って生物が持つすべての遺伝情報である「ゲノム」を解析し、ゲノム塩基配列に潜む各生物の個性、個性が持つ生物学的意味などを明らかにしていきます。
ゲノム解析の意義は広範に及びますが、現在私たちの研究グループが注力しているのは、エボラ出血熱、インフルエンザ、HIV などの疾病に対して、ヒトに副作用のない“ブレーキ”を探す取り組みです。全ての生物やウィルスなどが増殖する際には「メッセンジャーRNA(mRNA)」という核酸を生成するのですが、このmRNA の配列を認識して相補的に結合し、その働きを抑制する「アンチセンスRNAやsiRNA」がブレーキ役として知られています。ウィルスに対して有効であり、かつ人体の正常な働きには影響しないブレーキのデザインが求められます。


  ――核酸医薬品の開発競争は世界中で加速しています。
     
  核酸医薬品の開発は、人類の困難に立ち向かう挑戦であるとともに、ゲノムの広大な未踏の領域へのチャレンジであり、特に最近のエボラ出血熱の脅威がこの分野の研究を加速させています。およそ30 億個の塩基で構成されるヒトゲノムをはじめ、地球上に存在する多様な病原微生物やウィルスのゲノム配列を解析し、産業的・医学的に有用な情報を解き明かしていく壮大な取り組みですから、競争もありますが多分野の研究者の協力も重要です。ゲノム解析はビッグデータ解析そのものですので、バイオと遺伝子生物学の領域では、コンピューターの計算性能への要求はますます高まっています。


  ――計算性能への期待の大きさを示す例をご紹介いただけますか。
     
  そうですね、たとえば「メタゲノム解析」というアプローチがあります。自然環境や臨床検査試料などから多種類の微生物のDNAを混合物として抽出し、このDNA 集合体の塩基配列を解読します。環境中の微生物類は実験室での培養が困難で、膨大なゲノム資源が手つかずのまま残されてきましたが、それらの微生物類のゲノムや遺伝子塩基配列の解読が可能になりました。深海や極地、熱水中のような過酷な環境で生きる微生物は、新規性の高い有用な遺伝子を持っている可能性が高いのです。例えば、自然界で生育する微生物類は生存競争に勝ために、他種の微生物を殺す抗菌物質を生産しますが、新規性の高い微生物が生産する抗菌物質は新規薬剤としての有用性を持っています。
シークンエンサー(DNA 解読装置)の技術革新によって、ゲノム配列の“解読”そのものは大きく進展しつつあります。しかし、国際DNAデータバンク(DDBJ / EMBL / GenBank)に登録される「メタゲノム解析」で得られる膨大な配列データの大部分には、遺伝子機能や生物系統の情報すら付加されていません。解読のス ピードにたいして、その情報を“解析”する技術や体制、コンピューターの計算性能が追いついていないのです。メタゲノム解析で得られた膨大な配列データ も、そのままでは産業的・医薬学的な活用が困難です。「有益な情報はデータベースに眠っている」という状況は何としても打開しなければなりません。解決の 突破口を見出すために私たちの研究グループが開発したのが、「BLSOM(一括学習型自己組織化マップ)法」と呼ぶビッグデータ解析に適した「教師なし学 習のクラスタリング」手法です。





池村 淑道 氏(Toshimichi Ikemura)理学博士
長浜バイオ大学
コンピュータバイオサイエンス学科
客員教授・名誉教授
国立遺伝学研究所
名誉教授・総合研究大学院大学 名誉教授

京都大学 理学研究科 物理学専攻 博士課程修了。1990年 国立遺伝学研究所 進化遺伝研究部門 教授、2004年 総合研究大学院大学 葉山高等研究センター 教授を経て、2006年より長浜バイオ大学 バイオサイエンス学部 教授、学部長・研究科長を経て現職。ゲノム科学、ゲノム情報学、ゲノム進化学を専門とし、実験と情報解析を統合した研究に取り組む。日本遺伝学会賞(木原賞)、日本進化学会賞(木村賞) を受賞。


目的
ゲノムの配列に潜む多様で有益なビッグデータを解析しウィルスに対し有効、且つ人体の正常な働きに影響しない安全な(ブレーキとなる)核酸医薬のデザインを探求

アプローチ
その働きを抑制する「アンチセンスRNAやsiRNA」をデザインするため、地球上に存在する多様な病原微生物やウィルスのゲノム配列を解析。ゲノムの広大な未踏の領域への挑戦

効果
高性能かつ高信頼のインテル® Xeon® プロセッサー E7 v2 ファミリーを搭載したHP Integrity Superdome Xで今までできなかった、より深いレベルでのビッグデータ解析が可能に。より人に優しく効果的な核酸医薬品を早期開発が見込まれる


『マップ化により、ゲノムの個性が一目瞭然になります』

  ――BLSOM法ではどのような解析が可能なのでしょうか。
     
  ゲノムのビッグデータから有益な情報を導き出すための、データマイニングの一手法と言えば分りやすいでしょうか。ゲノム配列には、私たちが想像できないほどの多様な情報が潜んでいます。BLSOM(一括学習型自己組織化マップ)法の「教師なし学習のクラスタリング」の特徴を生かしたビッグデータ解析により、予想もしなかった発見が可能になります。
DNAはA(アデニン)、T(チミン)、G(グアニン)、C(シトシン)の4 種類の塩基が延々と連なっていますが、各生物のゲノム配列の連続塩基(オリゴヌクレオチド)組成には、それぞれの生物種の“サイン”と呼べるような明らかな特徴があり、断片化した配列中でも検出可能です。私たちの研究グループでは、この連続塩基組成を解析するBLSOM法により「ゲノムが解読されたすべての生物種のゲノム配列を一枚のマップとして可視化」しました。この“マップ”上では、ゲノムの断片配列が、生物種や生物系統ごとに高精度で分離(自己組織化)しますので(*1)、この“マップ” を利用すれば、メタゲノム解析で得られた膨大なゲノム断片配列の系統を推定できます(*2)。
以前に地球シミュレーターで作成したこの“マップ”とBLSOM法(*3)は、2009 年に米国科学財団(NSF)の「Cyber-enabled Discovery and Innovation Initiative」が主催した、「Knowledge Management and Visualization Tools in Support of Discovery」とのワークショップで「米国で今後推進すべき、バイオ分野のビッグデータ解析技術」として紹介されました。海洋微生物を代表例として、環境中の微生物類が地球環境の変動や維持に多大な影響を与えることが明らかになり、その意味でも全地球レベルでのメタゲノム解析の重要性が高まっています。次世代シーケンサーを用いて産出されたビッグデータの多くが未活用という状況にあるメタゲノム解析の閉塞状況を打開するポテンシャルがある、と私たちも確信を深めましたが、現在ではBLSOMやその関連手法は世界的にも利用が始まっています。


  ――“マップ”の有用性をもう少し解説していただけますか。
     
  未知の微生物の系統を明らかにする“マップ”では、現時点で人類が知り得ているすべての生物種のゲノム情報の特徴を予め抽出し、利用しやすい形式で集約しています。図1で示したBLSOMはその目的で作成したマップの例です。このようなマップを作成し公開しておけば、ある研究グループが独自のメタゲノム解析で取得した配列情報をマップと照合することで、その生物系統を推定することができます(*4,*5)。マッピングの作業は学習完了後のBLSOMを使うだけなので、研究室のパソコン程度の性能で可能です。世界中の研究チームに未開拓のゲノム資源を活用するための道を拓き、ライフサイエンスの基礎分野だけでなく医薬学を含む産業分野にも大きく貢献できるものと確信しています。





『エボラの問題が、ゲノム解析を核酸医薬品の開発に活かす取り組みを加速させています』

  ――BLSOM法による成果をご紹介いただけますか。
     
  インフルエンザが毎年のように世界的に大流行していますが、トリやブタを介して変異しヒトに感染するような危険株も次々と現れています。BLSOM法では、「この新株は従来のどのインフルエンザに近いのか」「どのような地域での早期対策が重要なのか」「今後どのような変異を遂げるのか」までを、限定された視点からではありますが、予測することができます(*6)。医療・製薬の現場でタイムリーに効果的な対応が可能になります。
また、エボラ出血熱への対策が待ったなしの状況になっていることは周知のとおりです。世界中の研究グループが、エボラウイルスの増殖を妨げる医薬品の開発を急いでいます。その一つが核酸医薬ですが、核酸医薬の英語名がtherapeutic oligonucleotideであることからも明らかなように、オリゴヌクレオチド(具体的には、20〜30連続塩基の核酸断片)を「アンチセンスRNAやsiRNA」のような遺伝子発現の“ブレーキ役”として使います。エボラの待ったなしの状況が「ゲノム解析を核酸医薬品の開発に活かす」取り組みを加速させているとも言えます。BLSOM法によるオリゴヌクレオチド組成の解析は、核酸医薬オリゴヌクレオチドの候補をサーチし最適にデザインするために欠かせない手法となっています。


  ――では、BLSOM法を使った解析には何か課題はありますか。
     
  ヒトのDNAは個人ごとに少しずつ違い、人種によっても違います。「ヒトに副作用のない“ブレーキ役オリゴヌクレオチド”を探す」という話をしましたが、ゲノムDNA配列が個人や人種により差異があることによって、副作用の程度にも個人や人種による差異が生じます。言い換えれば、個人や人種に適した個別医療が可能になります。一方で、エボラやインフルエンザ側もゲノム配列を変化させ、薬が効かなくなるように変わります。分析対象は膨大、しかもどんどん変化を繰り返しており、途方もない量のビッグデータを迅速に解析しなければならないという問題を突き付けています。いかに現実的な計算時間で成果を得られるか――BLSOM法を適用した解析には、強力なコンピューターの計算能力が欠かせません。




インテル® Xeon® プロセッサー E7 v2 ファミリー搭載

HP Integrity Superdome X

  • インテル® Xeon® プロセッサーE7-2890 v2(2.8GHz/15コア)
  • 16ソケット(計240コア)
  • 12TBメモリ(DDR3)
  • Redhat Enterprise Linux 6.5
製品詳細はこちら

『不可能だった解析が可能になる。未踏の領域へ挑む大きな一歩です』

  ――BLSOM法ではコンピューターよってどのような計算を行うのでしょうか。
     
  ゲノム配列に潜んでいる各生物の個性を知る解析を例に説明します。前述したように、DNAはA(アデニン)、T(チミン)、G(グアニン)、C(シトシン)の4種類の塩基が延々と連なっており、ヒトゲノムはこれらが集まって約30億の塩基から構成されています。まず、この30億塩基を1k や10kに分断して、それぞれの断片に対し連続塩基(オリゴヌクレオチド)の出現パターンを算出します。塩基配列を“文章”として捉え、各連続塩基を“単語”として捉えてその単語をカウントしていく処理です。各文章内の単語をカウントし、その頻度パターンに着目することで、文章を書いた執筆者(この場合は各生物種)が極めて高い確率で推定できますが、そのような“ワードカウントによるビッグデータ解析”と想像してください。そして、ワードカウントの結果をBLSOM法によってクラスタリングすると、生物種に関する情報を一切与えていないのに、断片化されたゲノム配列が生物の種類ごとに高精度に分類(自己組織化)し、可視化されるのです。この自己組織化のマップと開発済みの様々なツールを用いることで、能率的で新規性の高い知識発見が可能になります。


  ――計算にはどの程度の負荷がかかるのでしょうか。
     
  連続塩基数を伸ばすほど精度の高い解析が可能になりますが、4連(AAAA、AAAC、AAAG・・・TTTT)、5連(AAAAA、AAAAC、AAAAG・・・TTTTT)、6連、7連と増やしていくと指数関数的に計算量は増大します。たとえば、ハイエンドのx86サーバー(8ソケット/80コア/4TBメモリ)では、配列パターンが16,384次元に及ぶ「7連」が計算処理の限界です。


  ――今回、高性能・高信頼のインテル® Xeon® プロセッサー E7 v2 ファミリー搭載
    「HP Integrity Superdome X」(16ソケット/240コア/12TBメモリ)を検証していただきました。
     
  同じ研究グループの和田健之介教授を中心にHP Integrity Superdome Xの検証を行った結果、期待以上の結果が得られました。これまで不可能だった「8連=65,536次元」のBLSOM計算を実行して見せたのです。
頻度パターン解析だけに限ってみれば、ヒトの全てのRNAやDNAについては、「32連」すなわち4の32乗=18,446,744,073,709,551,616次元、の頻度解析が実現しました。さらに、エボラ、エイズ、インフルエンザなどのウィルスにいたっては、「100連」すなわち4の100乗=1.6e+60つまり60桁という途方もない種類の全パターンについての頻度計算が可能になりました。(図2参照)


  ――検証結果へのご感想をお聞かせいただけますか。
     
  「できなかった計算ができるようになった」「不可能が可能になった」――まさに、未踏の領域へ挑む大きな一歩と感じており、HP Integrity Superdome Xの強力な計算性能がこれからどれだけの成果をもたらしてくれるか大きな期待を持っています。これだけの計算性能が汎用的なx86サーバーで実現できることは驚きです。





ビッグデータからの能率的で多様な知識発見を支援する目的で、データの全体を俯瞰すると同時に個別配列の情報や特徴を迅速に把握するための様々なツールが備わっている。BLSOMの画面では、各カテゴリー(この場合は各ウイルスやヒトRNA)の配列のみからなる格子点は、カテゴリーを示す色で表示し、複数カテゴリーの配列が混在する格子点は黒色で表示した。黒色の格子点が著しく少ないことは、ウィルス類は断片化してもヒトRNA断片と明瞭に異なった連続塩基組成を持つことを示している。それぞれのウィルスに適合し、かつ副作用の可能性の低い「アンチセンスRNAやsiRNA」等のブレーキ役オリゴヌクレオチドのデザインが可能なことを示している。さまざまな長さの連続塩基の組成を解析しながら、これらのウィルスに有効となるブレーキ役オリゴヌクレオチドのデザインに取り組んでいる。


『ビッグデータを前に俄然奮起する、そうした若い研究者が育っています』

  ――ゲノムのビッグデータに取り組んでいくにあたって大事なことは何でしょうか。
     
  あまりにも膨大なデータ量、巨大な課題に直面すると自分たちの無力を感じてしまう・・・それはゲノムの研究者も例外ではありません。解析対象となるデータ量は加速度的に増大していますし、“マップ”を更新していく作業も研究グループの限られたメンバーで取り組まなければなりません。だからこそ、ゲノムに携わる研究者にはコンピューターのパワーは不可欠です。
私たちの研究チームには、「ビッグデータを前に怯む必要はない」「ハイエンドなコンピューターを使って溌剌と取り組もうじゃないか」と、データの巨大化の時代に、むしろ活き活きと奮起するメンバーが揃っています。そうした気概を持った若い研究者たちの活躍には目覚しいものがあります。彼らの成長を頼もしく思うとともに、ゲノムという広大な未踏の領域へのチャレンジが大きな成果として実を結ぶと確信しています。


 
    HP Integrity Superdome Xについてはこちら
http://www.hp.com/jp/sdx


    (引用論文)
*1. Abe, T., Kanaya, S., Kinouchi, M., Ichiba, Y., Kozuki, T. and Ikemura, T., Informatics for unveiling hidden genome signatures. Genome Res., 13, 693-702, 2003.
*2. Abe, T., Sugawara, H., Kinouchi, M., Kanaya, S. and Ikemura, T., Novel phylogenetic studies of genomic sequence fragments derived from uncultured microbe mixtures in environmental and clinical samples. DNA Res., 12, 281-290, 2005.
*3. Abe, T., Sugawara, H., Kanaya, S. and Ikemura, T., Sequences from almost all prokaryotic, eukaryotic, and viral genomes available could be classified according to genomes on a large-scale Self-Organizing Map constructed with the Earth Simulator, Journal of the Earth Simulator, 6, 17-23, 2006.
*4. Uchiyama, T., Abe, T., Ikemura, T. and Watanabe, K. (2005) Substrate-induced gene-expression screening of environmental metagenome libraries for isolation of catabolic genes. Nat. Biotechnol. 23, 88-93.
*5. Nakao, R., Abe, T., Nijhof, A. M., Yamamoto, S., Jongejan, F., Ikemura, T., and Sugimoto, C. (2013) A novel approach, based on BLSOMs (Batch Learning Self-Organizing Maps), to the microbiome analysis of ticks. ISME J. 7, 1003-1015.
*6. Iwasaki, Y., Abe, T., Wada, K., Itoh, M., and Ikemura, T. (2011), Prediction of Directional Changes of Influenza A Virus Genome Sequences with Emphasis on Pandemic H1N1/09 as a Model Case, DNA Res, 18, 125-136.



インテル® Xeon® プロセッサー E7 v2 ファミリー

99.999%というハードウェアレベルの可用性を実現



*1 すべての(4-wayで96、8-wayで192)DIMMと64GB DDR3 LR-DIMMを取り付けることで可能なメモリ容量です。
*2 絶対的な信頼性、可用性、または保守性を提供できるコンピューターシステムはありません。インテルR Run Sure テクノロジー対応システム(対応するインテルR プロセッサーおよび対応テクノロジーを含む)が必要です。一部のインテルR プロセッサーで利用できる内蔵信頼性機能を使用するには、別途ソフトウェア、ハードウェア、サービスまたはインターネットへの接続、あるいはその両方が必要となる場合があります。結果はシステム構成によって異なります。各システムメーカーにお問い合わせください。

お問い合わせ

お電話でのお問い合わせ

Webサイトからのお問い合わせ

エンタープライズ向け製品のご購入前のご相談

HPE Integrity/HP-UXに関するお問い合わせ

03-5749-8328

09:00-19:00 (月曜−金曜)
10:00-17:00 (土曜)
※祝祭日と5月1日は除く

Webサイトから


HPE Integrity NonStopに関するお問い合わせ

Webサイトから

Error processing SSI file

What's New

Topics