※本情報は解説作成時点のもので、閲覧時点では法改正等により情報が変更になっている場合がございます。あらかじめご理解いただければ幸いです。
正解は「D.ソーシャルメディアの口コミを機械学習によって単語ごとに分解し、要約を作り、分析可能なデータに加工し、関係データベースに保管する。」です。
非構造化データである口コミ文章を分解・整理して構造化データに変換する処理が、ビッグデータ分析の前段階に当たります。
この記事では、基本情報技術者試験(FE)試験(令和6年度)で出題された過去問の第15問「非構造化データの構造化」について、試験対策の観点からわかりやすく解説します。
Contents
非構造化データと構造化データ
非構造化データ→加工→構造化データ
非構造化データとは、文章・画像・音声など、あらかじめ決まった形式で整理されていないデータを指します。一方、構造化データは、表形式など一定の形式で整理され、データベースで扱いやすい形になっているデータです。ビッグデータ分析では、まず非構造化データを分析可能な形に加工する工程が重要になります。
他の選択肢との違い
- 関係データベースから抽出し表計算形式に加工:既に構造化されたデータの加工
- 個人情報の匿名化:データ保護のための処理であり、構造化の説明ではない
- 住所表記の統一:データクレンジングの例であり、非構造化データの構造化ではない
文章データを単語分解・要約し、データベースに格納する事例が、非構造化データを構造化する処理に該当します。
問われているポイント
この問題では、ビッグデータ分析の前処理工程に関する理解が問われています。
「非構造化データとは何か」「構造化とは何を意味するか」を区別できることが重要です。
気を付けてほしい点(勘違いしやすいポイント)
- 既に構造化されているデータの抽出は該当しない
- 匿名化や表記統一は目的が異なる処理
補足
テキストマイニングや自然言語処理は、非構造化データを分析可能な形に変換する代表例です。
基本情報技術者試験(FE)試験での出題パターン
基本情報技術者試験(FE)試験では、ビッグデータやAI関連分野から前処理・データ加工に関する問題が出題されます。
データの種類と処理内容を正確に理解しておきましょう。
この知識が使われている問題
まとめ
- 文章などの非構造化データはそのままでは分析しにくい
- 分解・整理して構造化データに変換する工程が重要