ビッグデータのクラスタリング 一般的なパソコンで可能に

 SNSにアップロードされている膨大な数の画像データを、動物のようなものが写っている写真、街の風景が写っている写真といったグループに分ける処理(クラスタリング)を行う場合、数百枚なら個人のPCでも処理できる。しかし枚数が1億以上の巨大なデータになると、処理速度が遅すぎたり、必要なメモリー容量が大き過ぎたりして、PCユーザーが入手・利用できる仕様のパソコン1台では実行することは難しく、大規模なクラスタリングを行うためには、多数のサーバーを用いた分散並列処理が必要だった。
 国立情報学研究所コンテンツ科学研究系の松井勇佑特任研究員、ドワンゴメディアヴィレッジ研究開発グループの大垣慶介グループリーダー、東京大学大学院情報理工学系研究科の相澤清晴教授、山崎俊彦准教授の研究グループは、データ処理の基本操作であるクラスタリングを、10億個程度のビッグデータに対して、高速かつ少ないメモリー容量で実行できる実用性の高い手法を開発した。米カリフォルニア州マウンテンビューで10月23~27日に開催される、マルチメディア分野のトップ国際会議ACM International Conference on Multimedia 2017で発表される。論文(PQk-means: Billion-scale Clustering for Product-quantized Codes)は計算機科学などの論文を保存・公開するウェブサイト「arXiv(アーカイブ)」に先行掲載された。
(29年9月29日号)