難易度・正答率・重要度
- 難易度:★★☆☆☆(概念の整理)
- 正答率:★★★☆☆(DWHとの違いを把握)
- 重要度:★★★☆☆(データ利活用の基盤)
問題文
データを格納する考え方としてデータレイクが注目されている。データレイクに関する記述として、最も適切なものはどれか。
ア
組織内で運用される複数のリレーショナルデータベースからデータを集めて格納する。
イ
組織内の構造化されたデータや、IoT機器やSNSなどからの構造化されていないデータをそのままの形式で格納する。
ウ
データウェアハウスから特定の用途に必要なデータを抽出し、キー・バリュー型の形式で格納する。
エ
データ利用や分析に適したスキーマをあらかじめ定義して、その形式にしたがってデータを格納する。
オ
テキスト形式のデータと画像・音声・動画などのバイナリ形式のデータをそれぞれ加工し、構造化したうえで格納する。
出典:中小企業診断協会|2022年度 第1次試験問題|経営情報システム(PDF)
解答
- 正解:イ(構造化・非構造化データを生の形式で格納)
解説
- ア:×
複数RDBの集約はETLやDWHの文脈であり、データレイクの定義を満たさない。 - イ:〇
データレイクは構造化・半構造化・非構造化を含む生データをスキーマ前提なく格納できる。 - ウ:×
DWHから抽出しキー・バリューで格納する説明はデータマートやNoSQLの一部特性に近く、データレイクの本質ではない。 - エ:×
事前に分析スキーマを設計して格納するのは「スキーマ・オン・ライト」のDWHの考え方。 - オ:×
事前加工・構造化を前提にするのはDWHの特徴で、レイクは「そのまま格納」が基本。
学習のポイント
- データレイク: 生データを形式問わず大量に蓄える「スキーマ・オン・リード」の基盤。
- DWHとの違い: DWHは前処理・整形済みデータを格納する「スキーマ・オン・ライト」。
- 対象データ: 構造化(RDB)、半構造化(CSV/JSON)、非構造化(画像・音声・ログ等)を含む。