過去問解説(経営情報システム)_2022年(R4年) 第4問

難易度・正答率・重要度

  • 難易度:★★☆☆☆(概念の整理)
  • 正答率:★★★☆☆(DWHとの違いを把握)
  • 重要度:★★★☆☆(データ利活用の基盤)

問題文

データを格納する考え方としてデータレイクが注目されている。データレイクに関する記述として、最も適切なものはどれか。

組織内で運用される複数のリレーショナルデータベースからデータを集めて格納する。
組織内の構造化されたデータや、IoT機器やSNSなどからの構造化されていないデータをそのままの形式で格納する。
データウェアハウスから特定の用途に必要なデータを抽出し、キー・バリュー型の形式で格納する。
データ利用や分析に適したスキーマをあらかじめ定義して、その形式にしたがってデータを格納する。
テキスト形式のデータと画像・音声・動画などのバイナリ形式のデータをそれぞれ加工し、構造化したうえで格納する。

出典:中小企業診断協会|2022年度 第1次試験問題|経営情報システム(PDF)

解答

  • 正解:イ(構造化・非構造化データを生の形式で格納)

解説

  • ア:×
    複数RDBの集約はETLやDWHの文脈であり、データレイクの定義を満たさない。
  • イ:〇
    データレイクは構造化・半構造化・非構造化を含む生データをスキーマ前提なく格納できる。
  • ウ:×
    DWHから抽出しキー・バリューで格納する説明はデータマートやNoSQLの一部特性に近く、データレイクの本質ではない。
  • エ:×
    事前に分析スキーマを設計して格納するのは「スキーマ・オン・ライト」のDWHの考え方。
  • オ:×
    事前加工・構造化を前提にするのはDWHの特徴で、レイクは「そのまま格納」が基本。

学習のポイント

  • データレイク: 生データを形式問わず大量に蓄える「スキーマ・オン・リード」の基盤。
  • DWHとの違い: DWHは前処理・整形済みデータを格納する「スキーマ・オン・ライト」。
  • 対象データ: 構造化(RDB)、半構造化(CSV/JSON)、非構造化(画像・音声・ログ等)を含む。