プログラム

9:30 開場
10:00~10:20 開会の挨拶・統合に関する現状報告
郷 通子 (長浜バイオ大学、情報・システム研究機構)
10:20~10:45 「オーミクス研究者から見たデータベース:データ生産者の目線」
伊藤 隆司 (東京大学大学院理学系研究科)
10:45~11:10 「ショウジョウバエ脳の神経画像データベースFlybrain:15年の蓄積と将来への課題」
伊藤 啓 (東京大学分子細胞生物学研究所)
11:10~12:30 ポスター発表
12:30~13:30 昼食
13:30~14:10 基調講演
「私はなぜ統合データベースを立ち上げたのか ~ 2050年に向けて」
堀田 凱樹 (情報・システム研究機構)
14:10~14:35 「バイオマーカー・薬剤作用機序研究におけるデータベースの必要性と課題」
青島 健 (エーザイ株式会社)
14:35~15:00 「東京大学情報基盤センター 大規模データ解析基盤運用に向けて」
石川 裕 (東京大学情報基盤センター)
15:00~15:30 休憩
15:30~15:55 「生命科学のための情報統合とテキストマイニング」
辻井 潤一 (東京大学大学院情報学環、マンチェスター大学計算機科)
15:55~16:20 「バイオリソースデータベース:15年の歩みと将来展望」
山崎 由紀子 (国立遺伝学研究所生物遺伝資源情報総合センター)
16:20~16:45 「医療情報の研究利用について:外国から学べること」
佐藤 雄一郎 (神戸学院大学法学部)
16:45~17:05 まとめ・閉会の挨拶
高木 利久 (東京大学大学院新領域創成科学研究科、科学技術振興機構)
17:30~ 懇親会

※プログラムは一部変更となる場合がございます。

プログラム詳細

開会の挨拶・統合に関する現状報告
種別挨拶
番号1
タイトル開会の挨拶・統合に関する現状報告
発表者郷通子
所属長浜バイオ大学, 情報・システム研究機構
発表資料講演動画

PDF
要旨-
まとめ・閉会の挨拶
種別挨拶
番号1
タイトルまとめ・閉会の挨拶
発表者高木利久
所属東京大学大学院新領域創成科学研究科, 科学技術振興機構
発表資料講演動画

PDF
要旨-
オーミクス研究者から見たデータベース:データ生産者の目線
種別口頭発表
番号1
タイトルオーミクス研究者から見たデータベース:データ生産者の目線
発表者伊藤隆司
所属東京大学大学院理学系研究科
発表資料講演動画

PDF
要旨 私の専門はオーミクスという網羅的データを出す分野である。網羅的データから新知識を発見したくてやっている訳だが、同時にデータを多くの人に再利用して貰いたいとも思う。気付かなかったことを他人に指摘されるのは悔しいが、データは大勢で見た方がよい。だから、データの使いやすさにも自分なりに気を使ってきた。しかし、データ生産者は原著論文(というか掲載誌の評判?)で評価される。論文にリンクしたDBやサプリメンタルデータは関係ない。元データまで辿れなかろうが、サプリがいい加減であろうが、有名誌に載った方が勝ち。これではデータ再利用への配慮は薄れるばかりだろう。どうしたらよいのだろう。
 我々自身の経験でうまく行ったのは、酵母の完全長cDNA解析のケースだった。元々この論文のサプリの評判は上々だったが、酵母ゲノムデータベース(SGD)がデータを取り込みに来た。しっかりした人材がSGDに居て一緒に色々と考えてくれた。一方、残念だったのが酵母のタンパク質間相互作用データ。当時は新しいタイプのデータだったから、色んなところで無い知恵を絞った。その際、最も役立ったのが文献に基づく商用DBだった。しかし、私の異動に伴い前任地でのDBの維持が不可能になり、論文に掲載したURLはリンク切れ。データ自体は色んな相互作用DBが取り込んだが、事前に何のコンタクトもなく、当方の意図を無視された部分には抗議したこともあった。最近、このデータはDBCLSのアーカイブに入った。その際にアノテーションの更新版も作って頂いた。ありがたい話である。恒久的な機関が引き取って、定期的に付随情報をアップデートしてくれる「永代供養」の仕組みがあると、データもデータ生産者も成仏できる。更に出版社が出版済み論文のリンク先変更に応じてくれたら言うことない。
 こうした経験から、論文(あるいはそれに替わるもの)の発表とほぼ同じタイミングで、データが恒久的なDBに入る仕組みがあるとよいなと思う。その際に、論文の要旨には書き込めないポイントも登録できると更によい。それらが統一された形式で整理されて検索可能になっていれば、あちこちの雑誌のウェブサイトからサプリを落としてくる必要もなくなるし、文献に基づく商用DBを買う必要もなくなる。既存データはさておき、今後出てくるデータに対しては、予めこうした仕組みで散逸を防ぐ手立てがあってもよいのではなかろうか。しかし、論文投稿前に面倒な手続きが増えるのは真っ平ごめんだから、データ生産者がストレスなしに協力できる仕組み作りが重要になる。その仕組みを議論する際には、DB好きやら意識の高い本日の聴衆諸賢のような層にはご遠慮頂いて、間違ってもこんなシンポに足を向けることがないようなタイプの生物学者達の意見を最大限に尊重して欲しいものである。
ショウジョウバエ脳の神経画像データベースFlybrain:15年の蓄積と将来への課題
種別口頭発表
番号2
タイトルショウジョウバエ脳の神経画像データベースFlybrain:15年の蓄積と将来への課題
発表者伊藤啓
所属東京大学分子細胞生物学研究所
発表資料講演動画

PDF
要旨 ショウジョウバエは他のモデル生物に比べコミュニティによる研究基盤整備が充実しており、世界最大のストックセンターが京都にあるなど日本の貢献も大きい。ショウジョウバエ特有の研究上のアドバンテージとして、特定の神経細胞を単に可視化するだけでなく、その神経の応答を特異的に測定したり、機能をさまざまに操作したりする技法が発達していることが挙げられる。このようなメリットを最大限に活かすため、我々は1995年以来、インターネット最古の脳神経データベースのひとつであるFlybrainを構築して運営している。さらに2010年には、ハエ脳の既知の全ての神経種の情報を網羅した新サイトFlybrain Neuron Databaseを公開した。これらはショウジョウバエを用いた脳研究に欠かせない知識ベースとして、国際的に広く利用されている。
 一方、脳データベースを15年間運営し、世界中の研究室にデータ提供を呼びかけてきた経験からすると、データベースの整備に関する一般的な認識にはギャップを感じることも多い。個々の神経に関する情報を整理してデータベースに収録するには、レビュー論文を書くのと同等の知的能力が要求される。公開に耐えるレベルの神経画像を撮影し、適切なアノーテーションを施すには、博士研究員と同等の解析能力が要求される。しかし、新たなデータベースを作成すること自体は論文になるが、そのデータベースにその後いくらデータを追加して整備しても、論文にはならない。発表論文数が研究者や研究室の評価の基準としてますます重視されるようになった昨今において、この現実はいちど作ったデータベースを継続して充実させる作業や、その作業のために優秀な人材をリクルートして投入することを、非常に難しくしている。
 研究の過程で得られたデータの中で、論文にならないものをデータベース化すれば効率的だという論もあるが、これも現実的には空論に近い。論文を書くためには、激しい競争下でいかに必要な作業に集中するかが重要である。そのためには価値ある発見につながる研究対象を素早く絞り込むことが重要であり、粗データをわざわざ整理して公開するのは時間とエネルギーの無駄であるだけでなく、研究ライバルを利することにもなりかねない。そもそも、特定の狭い研究目的に特化した論文のためのデータ蒐集と、広い目的に使えるデータベースのための体系的なデータ蒐集では、アプローチそのものが異なる。
 また、欧米ではデータベースのコンテンツの作成作業に1事業あたり年間数億円規模の研究費が投じられているのに対し、日本ではその種の予算が皆無に近い。論文発表を主目的とした競争的研究資金に依存した現在の日本のシステムでは、本格的なデータベースの構築と運営は困難である。さらに、論文でなくデータベースに収録することを目的に独自にデータを収集し、そのために必要な実験作業も行う人材であるバイオキュレーターがデータベースのコンテンツ充実には死活的に重要であるが、その重要性に対する研究者の理解やキャリアパスの整備も著しく遅れている。日本がデータベースの分野で世界に伍してゆくためには、これらの問題の抜本的解決が欠かせない。

Ito K. 2010. Technical and organizational considerations for the long-term maintenance and development of digital brain atlases. Frontier Systems Neuroscience 4(26). 

私はなぜ統合データベースを立ち上げたのか 〜 2050年に向けて
種別口頭発表
番号3
タイトル私はなぜ統合データベースを立ち上げたのか 〜 2050年に向けて
発表者堀田凱樹
所属情報・システム研究機構
発表資料講演動画

PDF
要旨 身の回りには生命があふれており、また自分自身が生物であるのだから、人間が生物の理解に努力した歴史は古い。しかし、生物学が真の科学になったのは19世紀末から20世紀初頭にかけてのMendelの法則の再発見と、Darwinの進化論からである。両者はいずれも複雑多様な現象の観察と実験の中から、生命の理解に不可欠な普遍法則を導き、その上に一見複雑に見える生命現象の裏にあるメカニズムを見抜いた点が重要である。「生物が複雑に見えるのはわれわれが無知だからである」という名言をはいてMorganがショウジョウバエ遺伝学を始めたとき、「遺伝」も「発生」も「進化」も同じ問題であると理解されていたことは、Morganの教科書を見れば明らかである。その後の生命科学の発展を見ると、20世紀半ばのWatson & Crick の大発見から分子生物学の怒濤のような発展が進み、今日にいたっている。その結果が21世紀初頭のゲノム時代の到来である。ほぼ半世紀ごとに起きたパラダイムシフトによって、科学としては大きく進んだのだが、「遺伝子」と「進化」をキーワードとして記載の学問から抜け出した生物学が、新たに分子という階層での博物学の時代に再び突入したとも言える。これは弁証法的観点で言う止揚 (Aufheben) にも擬せられよう。
 この新たな困難を乗り越えるために、われわれは何をするべきなのだろうか。現代の分子の博物学は百余年前の種の博物学とは大きく異なる点がある。生物の構成成分である分子の理解が進み、分子間相互作用、その出現消滅の時系列、などの記載は桁違いに膨大なものとなっている。知識量の爆発は研究者個人の能力を大きく越えているが、幸いなことに昔はなかったコンピューターとICTという武器がわれわれには与えられている。それを駆使してこの困難を克服しようという努力はバイオインフォマティックスなどの形で進められている。しかし、その成功のためには、膨大なデータや全ての知識が整理されて自由に利用できる基盤の構築が必要である。それなくしては専門家でももはや全体像の理解は不可能であり、ましてや非専門分野まで横断的に見渡して新たな研究に発展することはできない。この「生命科学のインフラ」の構築は個別の研究者の仕事とするのには無理があり、本来は国家的な事業として(電気・ガス・水道・電気のように)展開すべきものである。そこでわが情報・システム研究機構では、法人化を契機に検討を進め、まずはわれわれの出来る範囲で「統合データベース事業」をスタートさせるべく、DBCLSを設置してその努力を開始したのである。
 過去のパラダイムシフトが半世紀ごとにおきていることから、次回の革命は21世紀半ばと考えられるが、その時には必ずやこの「統合データベース」の活動の成果が重要な役割を果たすであろうと信じている。そのためには、情報処理技術の高度化に加えて、全ての実験データや知識が自由に流通する環境づくりが大切である。皆様のご理解とご協力をお願いしたい。
バイオマーカー・薬剤作用機序研究におけるデータベースの必要性と課題
種別口頭発表
番号4
タイトルバイオマーカー・薬剤作用機序研究におけるデータベースの必要性と課題
発表者青島健
所属エーザイ株式会社
発表資料講演動画

PDF
要旨 ゲノミクス、プロテオミクス、メタボロミクスを代表するオミクス解析は疾病のメカニズム探索や標的探索、診断、つまり創薬研究に必須な技術の一つとして注目されている。我々はLC/MSやGC/MSなどの質量分析手法を利用したプロテオミクス、メタボロミクス研究及びその創薬研究への応用を試みている。その際に、ディファレンシャル解析、すなわち、薬剤投与群と対照群、病態群と健常群、変異株と野生株などを比較解析するが、各群内における各々の遺伝子、タンパク質、代謝物の発現を平均化した後に群間比較し、その変動成分を検出する。その中で、MSを用いたプロテオミクス、メタボロミクスの定性・定量解析はとくに重要な役割を果たしている。MSスペクトルからタンパク質を同定・定量するインフォマティクス技術は1993年にペプチドマスフィンガープリンティング(PMF)法の提案とほぼ同時にスタートした。以来、様々なツール・アルゴリズムが開発され、プロテオームインフォマティクスは確実に医療、医薬、食品などの研究分野に応用されるようになった。同時に、問題点も明らかになってきた。例えば、MSを用いたタンパク質の同定技術はほぼ成熟していると言われているが、いまだに殆どの実験において3分の1のピークは依然として同定されない。さらに、同定されたタンパク質の変動量に関する研究は精度の面においても課題が残る。他方、MSを用いたメタボロミクス研究はプロテオミクスほど歴史が長くない。定量解析のみならず、代謝物を同定するためのデータベースも実用化レベルまでには至っていない。
 本講演ではオミクス解析を用いたアルツハイマー病(AD)バイオマーカー探索に焦点を当て、臨床検体またはモデル動物検体を用いたバイオマーカー探索に関わる同定・定量手法及び、これらの研究で用いるデータベースについて述べる。さらにバイオマーカー候補を発見したあと、バリデーション過程において、必要なデータベースとその課題についても論じる。
東京大学情報基盤センター 大規模データ解析基盤運用に向けて
種別口頭発表
番号5
タイトル東京大学情報基盤センター 大規模データ解析基盤運用に向けて
発表者石川裕
所属東京大学情報基盤センター
発表資料講演動画

PDF
要旨 平成22年度、東京大学情報基盤センターと理化学研究所計算科学機構にそれぞれ設置予定の10ペタバイト級ストレージシステムおよび大規模データ解析向けクラスタシステムの概要を述べる。本システムは、文部科学省「最先端研究基盤事業」補助事業で整備される設備である。平成23年度後半には東京大学情報基盤センターは、現行のSR11000スーパーコンピュータをリプレースし、1ペタフロップス級のスーパーコンピュータが導入される予定である。今回導入されるストレージは、スーパーコンピュータが使用する・生成するデータやゲノム情報等大容量のデータ解析に必要なデータを蓄積するために使用される。今後、インターネットを介して国内外の研究者が本ストレージ上のデータをアクセスできる環境を構築していく。
 東京大学情報基盤センターは、全国8大学の情報基盤センターから構成される『学際大規模情報基盤共同利用・共同研究拠点』の中核拠点として、今後、若手研究者、女性研究者に対して大規模データ解析向けクラスタシステムと超大容量ストレージの優先利用制度を導入する予定である。また、本事業で整備されるストレージおよびシステムソフトウェアを利用した大規模データ解析に関して、より高度な利用技術を確立すべくゲノム情報処理分野等の研究者と共同で研究を進めていきたい。
生命科学のための情報統合とテキストマイニング
種別口頭発表
番号6
タイトル生命科学のための情報統合とテキストマイニング
発表者辻井潤一
所属東京大学大学院情報学環, マンチェスター大学計算機科
発表資料講演動画

PDF
要旨 電子出版が一般化し、ジャーナルや国際会議の論文が大量に流通し、また、物理的には簡単にアクセスできるようになっている。しかしながら、テキスト集合から、自らの研究興味に関連するものを見つけ出す作業は、テキスト量の増大と共に加速度的に困難になってきている。
 テキストという非構造化データを構造化することで、データベース化するキュレーション作業は人手・時間など高コストなものとなり、このコストを以下に軽減するかが大きな問題となってきている。さらに重要なことは、このようなキュレートされたデータは元のテキスト中の情報をキュレーターが解釈して作成していることから、その過程での誤解釈の可能性や、生命科学にとって重要な情報の欠落が常に問題となる。また、一旦構築された構造化されたデータベースを維持管理していくことは、時間とともに進展・変容を続ける科学の分野では、通常のデータベースの維持管理以上に困難なものとなる。
 以上のような困難は、論文という非構造化データとキュレート結果としての構造化データとの関係は、データとメタ・データとの間に広く見られる現象の一つである。意味に基づくデータへのアクセスには、意味を明示的に与えるメタ・データの付与が有効であるが、人手によるメタ・データ付与は一般に高コストなものとなる。しかも、このメタ・データが有効であるためには、メタ・データの意味を与える安定したオントロジーがコミュニティで共有されていることが前提となるが、進展・変容を本質とする科学の分野では、この前提が成り立っていない。
 このように、メタ・データとそれを与えるオントロジーそのものが変容し、かつ、必ずしもコミュティー全体で共有されていない科学研究のためのデータベースやテキスト・ベースでは、データとメタ・データ、オントロジーといったものの相互関係を全体として蓄積、管理していく必要がある。
 生命科学の分野で使われる各種の情報表現、たとえば、(1)実験データ、(2)構造化されたデータベース、(3)テキスト・ベース、(4)個別の事実を統合するパスウェイモデル、(5)シュミュレーションのための定量モデル、といったものを相互に関連付けられることで、一つの情報表現を別の情報表現のメタ・データとして使うことが可能となる。本講演では、現在構築しているシステム(PathText)を例として取り上げ(1)、このような情報統合システムの将来に関して議論する。

(1)Kemper, B., Matsuzaki, T., Matsuoka,Y., Tsuruoka, Y., Kitano, H., Ananiadou. S., Tsujii, J.: PathText: a text mining integrator for biological pathway visualizations,Vol.26(12), pp374-381, Bioinformatics, Oxford University Press, 2010. http://bioinformatics.oxfordjournals.org/content/26/12/i374.full

バイオリソースデータベース:15年の歩みと将来展望
種別口頭発表
番号7
タイトルバイオリソースデータベース:15年の歩みと将来展望
発表者山崎由紀子
所属国立遺伝学研究所生物遺伝資源情報総合センター
発表資料PDF
要旨 バイオリソース情報の第1の特徴は「人」と「もの」が「情報」と固く結び付いていることであろう。リソースセンターに実体として存在する「リソース」の情報がデータベースにリアルタイムに反映され、「利用者」と「リソース担当者」の間で「もの」が行き来する。最近では課金によりペイメントも発生する。その「情報」は正にリアルワールドをつなぐ役割を果たす。一般的にデータベースの情報は整然と軽やかに見えるが、バイオリソースのデータは扱う側にとって重量級である。しかも多くのバイオリソースはその収集や開発、そして維持することにさえ世代を超えた知識と労力と思い入れが詰まっている。「リソースの寄託」という逆方向の矢印を加えるとさらにダイナミックな循環システムになる。バイオリソースデータベースが流動体にも生き物にも見えてくる。
 バイオリソース情報の第2の特徴は、関連情報の範囲が無限大であることであろう。我々が扱うバイオリソースが基礎科学の実験材料である以上、使って得られた研究結果すべてが関連情報になるからだ。当初描いていたバイオリソースデータベースは、多様な生物をX軸に、情報のスケール(個体、細胞、染色体、遺伝子、DNA配列)をY軸に、種内の多型をZ軸にとった3次元空間に関連の情報がマッピングされている整然とした3次元構造のイメージであった。しかし実際の関連情報はさらに巨大なネットワーク上にあって複雑であり、バイオリソースワールドの中で完結できるものでは到底ない。
 リソースや情報は同時代の研究者の役に立つものでなくては意味がない、と思う。そのためには同じ分野の異なるデータベース間の連携、異分野間の連携、国際連携などが効果的であるが、実体のあるデータベースが意味のあるネットワークを形成することが重要で、そこには必ず現役の担い手である「人」が見えていなくてはいけない。
ナショナルバイオリソースプロジェクト1の2期目が来年で終了する。これまでの歩みと今後のリソースデータベースの在り方、また連携の可能性について、上述した2つの視点でお話したい。

1、 NBRP Databases:Databases of Biological Resources in Japan, Nucleic Acids Res. (2010) 38, D26-32

医療情報の研究利用について:外国から学べること
種別口頭発表
番号8
タイトル医療情報の研究利用について:外国から学べること
発表者佐藤雄一郎
所属神戸学院大学法学部
発表資料講演動画

PDF
要旨 研究が重要なことは、誰もが理解している(憲法23条は「学問の自由は、これを保障する。」と規定している)。しかし、実際の研究活動はさまざまな規制や制約に服している。とりわけ、個人情報を用いた研究に対しては、1980年代の電子計算機処理への対応(たとえば、1983年の「行政機関の保有する電子計算機処理に係る個人情報の保護に関する法律」)を第1期、1990年代後半からの個人情報保護への対応(たとえば、2003年の「個人情報の保護に関する法律」)を第2期として、さまざまな規制がかけられている。とりわけ第2期については、対象となる情報が電算処理されるものに限られず、また、さまざまな主体が対象となる(行政機関、独立行政法人および民間の事業者を対象としてそれぞれ法律が作られている。地方公共団体は対象となっていないが、地方公共団体の多くは自主的に条例を制定している)など、影響が大きいものと思われる。もっとも、個人情報保護法は、研究の自由に配慮して、学術研究機関に属する者が学術研究の用に供する目的で個人情報を取り扱う場合には、個人情報取扱事業者の義務はかからないこととしている(50条)。しかし、諸倫理指針が厳しい姿勢で臨んでいることもあり、制限のない利用が許されるという現状ではない。データベース、匿名化、研究者への提供という利用に対する同意の働き方あるいは限界について、検討する必要があろう。
 一方、第1期の背景と、現在の状況とは、大きく異なるように思われる。1980年のOECD8原則は、対象を明示的に行政機関に限ってはいなかったが、事実上、問題となるほど多量の情報を持ちうるのは、行政機関であったといってよいであろう(83年の法律が対象を「行政機関」が保有する情報に限った一因もそこにあろう)。しかし、現在では、情報はあちらこちらに存在し(しかも、個人・企業が自主的に公開しているものも多い)、検索ロボットが集めた情報をサーチエンジンによって探し、見に行く、という形が一般的である。よく指摘される、種々の情報が集まると、ばらばらの状態では想像もつかなかった重要な意味を有することは、より大きな問題となる。諸データベースの統合ということが持つ意味についても考えなくてはなるまい。
 本報告では、上述のような変化を踏まえ、わが国における情報の、とくに、研究にとって重要であり、一方では特に人に知られたくないタイプの情報である、医療情報の研究利用が、どのような枠組みで行われるべきかを、諸外国の例を参考にしながら考えていきたい。