演題詳細


 

タ イ ト ル: 「大規模データをより深く・より速く分析する技術」

発  表  者: 西川 徹

所    属 : 株式会社Preferred Infrastructure

発 表 資 料 : 講演スライド 西川氏スライド

※発表資料の著作権は、別途記載がない限り発表者/所属機関に帰属します。
 ポスター・スライド内の図や文言を転用する際には、著作者と話し合っていただくようお願いいたします。


要    旨 :  ウェブサービスやイーコマースの普及、センサーネットワークへの注目の高まり、次世代シーケンサーの急速な発展など、様々な要因により、大規模データ処理への注目が高まっている。「ビッグデータ」と呼ばれるバズワードが毎日のように見聞されるようになり、あらゆる業種・分野で、大規模データをいかに活用するかという議論がなされている。
 そのような状況の中で、我々は、大規模データを活用するために必要な基盤技術の開発を日々行っている。大量なデータから必要な情報をすぐ参照できるようにするため、情報検索技術や自然言語処理技術の開発に取り組んでいる。また、データの中から新しい知見を発見するためには、データマイニングや機械学習の技術が有用である。最近では、ソーシャルネットワークをはじめとして、大規模なグラフを処理する機運が高まっているため、大規模グラフマイニングも重要な技術である。我々は、これらの技術の開発や精度向上に日々取り組んでいる。
 しかしながら、大規模データを活用するためには、個々の分析技術・検索技術の精度を高めるだけでは不十分である。大規模なデータに対して複雑な分析・有用な分析を実現するためには、ハードウェア・コンピュータアーキテクチャのレイヤーも含め、アルゴリズムを選択・設計する必要がある。
 並列処理がますます重要性を増しているのはもちろんであるが、大規模データ処理においては、ストレージをいかに高速化するか、ということも重要である。そのような中で、フラッシュメモリをベースとしたSSDの登場は、世の中に大きなインパクトを与えた。我々は、SSDに特化した全文検索インデックスの開発を行い、大規模なデータを、1台のPCでも自由自在に検索できるようにした。
 また、大規模データはテキストデータだけではなく、センサデータ、画像データ、次世代シーケンサーが出力するデータなど、さまざまなデバイスからさまざまなフォーマットでのデータが出力される。そして、そのスループットは増加の一途をたどっている。このような状況では、大規模データ処理においては、「データをためて、あとで処理する」という処理形態は立ち行かなくなるだろう。この問題の一つの解決策としては、ストリーム処理的にデータを処理することがあげられる。データに対してインクリメンタル・オンライン的に分析処理を行い、データをためない、というやりかたである。我々は、複雑な分析(具体的には、機械学習やグラフマイニングなど)・大規模な分析をストリーム的に処理できるようにするためのソフトウェア「Jubatus」をオープンソースで提供し、この手法の有用性の証明に向けて取り組んでいる。
 本講演では、これらの技術を、実例とともに紹介する。また、我々は、以上のような技術を、ライフサイエンス分野に応用するために日々研究開発を行っている。これらの研究開発の内容についても紹介したい。