April 20, 2004

論文紹介: The Google File System

Radium Softwareでも紹介されたThe Google File System (GFS)の論文について、補足の解説を行います。日本ではまだ実際に論文を読んで解説を書いている記事はないようなので、少し論文のニュアンスが間違って伝わっているところがあるようです。

さて本論文では16ページにわたり、GFSの設計と実装について詳細に述べられています。やや長いけれど、分散ファイルシステムや大規模システムの構築に興味のある人は読んで損はないでしょう。ここではRadium Softwareなどで取り上げられなかったことを補足します。そちらの記事を読んでない方は、まず先に読んでから、こちらを読んでください。

GFSはシーケンシャルで大きな追記と読み込みに特化した設計をもち、細かいアクセスやランダムアクセスでは性能を発揮することができません。またスループットと信頼性は重視されますが、レイテンシは重視されません。バックエンドの作業用キューなどに使用するためにこのような設計になっています。ですから、GFSはGoogleのシステムの裏方の一部分でしかないのです。

検索エンジンのデータや、メールデータが直接にこのファイルシステムで扱われることはないでしょう。フロントエンドには、また別の分散データストレージが存在しているはずです。

GoogleにとってGFSは、ほんの一部でしかありません。GFSをそのようにとらえると、Googleでは膨大な技術リソースが費やされていることがわかります。日本の雇用環境では、このように大量の良質なエンジニアを投入してプロジェクトを動かすことは不可能でしょう。

こうした事実がわかるだけでも、大規模システムの設計について、普段は得られないような識見を得ることができます。もし時間があれば、ぜひ全体をじっくり読んでみることをお勧めします。

Posted by arai at April 20, 2004 05:35 PM
Comments
Post a comment














Please enter this 6digits Security Code (for SPAM's sake...).
spam対策のため6桁のセキュリティコードを入力してください。