BLOGブログ

【書評】「AWSではじめる データレイク: クラウドによる統合型データリポジトリ構築入門」

当社では様々なシステムの開発を行っておりますが
その中の1つにビッグデータのシステムも存在しています。

私の所属する部署では、ビッグデータシステムの構築・運用を行っております。
今回2020年7月9日に発売された「AWSではじめる データレイク: クラウドによる統合型データリポジトリ構築入門」という書籍を読み、大変参考になると思いますので感想を記載します。

構成

本書は以下、三部構成となっています。

■ 第一部 データレイクの概念と知識
■ 第二部 データレイクの実践(基礎編)
■ 第三部 データレイクの実践(応用編)

感想

第一部では、データレイクの時代背景、汎用データベースRDBMSとの違いなど非エンジニアでも解りやすく、例を混ぜながら解説しているため、幅広い層に向けた内容となっています。
データレイク・クラウドの導入を検討する立場の方に是非見て頂ければビッグデータとは何なのか?概要を知る事が出来ると思います。

開発者目線で見ると、実際にデータレイクを運用するとデータカタログ・メタデータの運用が物凄く大切になるので、その辺についても詳しく記載されているので参考になると思いますが、例えばGlueデータカタログを運用する際にはIaC(Infrastructure as Code)と組み合わせ運用することになると思うので、そういった具体的な運用事例のような物があれば、これからデータレイクを構築しようと思っている人にとっては更に有益になるかと思いました。
また、S3の暗号化については充実した内容だと思いますが、システム全体のセキュリティやネットワークをはじめ、Redshift等のデータベース暗号化については内容が薄いため、何らかの方法で別途補う必要があると思います。

また、二部・三部に関してはタイトル通り、実務者向けの内容となっています。
ビッグデータのシステム開発を、これから行うエンジニア・既に行っているエンジニアの基礎的なポイントの振り返りとして活用する事が出来ると思います。

ETL(Extract、Transform、Load)に関して、入門という位置付けなのでマネージド・サービスであるGlueジョブを中心に解説されています。
データ活用が活発なプロジェクトでは、Glueジョブでは賄いきれずEMR(Hadoop)やRedshiftを中心にETLを行うシーンが多いと思いますので、より複雑な要件を検討している場合は、本書では足りないかもしれません。

最後に

文中に記載されていますが、本書はデータ活用を行う際に日本語で体系的に説明した書籍がない、ということから執筆を始められたと書かれており、私自身も同様の感想を持っていました。

読み終えて、入門書としてはデータレイク基盤の知識として必要となる要素が一通り網羅されているため、データエンジニアリングの基礎について知りたい方にとってオススメの1冊です。

興味のある方は是非読んでみてください。

関連する記事