![]() 前へ |
![]() 次へ |
属性分析では、特定の列または属性内に格納されたデータの構造と内容について、一般情報と詳細情報の両方を調べます。
属性分析は、次の分析で構成されています。
パターン分析
パターン分析では、属性内に格納されたデータの文字列を分析して、レコードのパターンと共通タイプを検出します。この分析では、属性内に存在する多くの値と一致する正規表現をいくつか生成し、候補となる各正規表現に準拠するデータの割合を報告します。OWBでは、日付、電子メール・アドレス、電話番号および社会保障番号など、一般の正規表現に準拠するデータを検索できます。
表: パターン分析対象のサンプル列に、パターン分析の対象として使用するサンプル属性「ジョブ・コード」を示します。
表: パターン分析結果は、このパターン分析の結果を示しています。ここで、Dは数値を表し、Xは文字を表します。この結果から、すべてのジョブ・コードをDDD-X-DDの形式にすることが会社の方針であることが判明し、この属性のすべての値がこのパターンに準拠することを要求するデータ・ルールを導出できます。
ドメイン分析
ドメイン分析では、最も頻繁に発生する値を調べることによって、ドメイン、つまり属性内で共通して使用されている値を識別します。たとえば、顧客表の「婚姻」列をプロファイリングした結果、90%の値が「MARRIED」、「SINGLE」または「DIVORCED」のいずれかであることが判明したとします。さらに分析を進めてデータにドリルダウンしたところ、残りの10%は、わずかな例外を除いて、これらの語のスペルの間違いであることが判明しました。プロファイリングの構成によってドメインとして適格となる対象が決まるため、ドメイン値を受け入れる前に、構成を確認してください。その後、OWBで、この属性に格納されるデータがドメインとして適格とされた3つの値のいずれかであることを要求するルールを導出できます。
データ型分析
データ型分析では、属性内のデータ型に関する情報を検出できます。このタイプの分析では、スケールや精度とともに文字長の最大値と最小値などのメトリックが判明します。たとえば、データベース列のデータ型はVARCHAR2ですが、この列の値がすべて数値である場合があります。この場合、ロード対象が数値のみであることを確認する必要があるとします。データ型分析を使用すると、OWBで、属性内に格納されたすべてのデータが同じデータ型であることを要求するルールを導出できます。
一意キー分析
一意キー分析では、属性が一意キーであるかどうかを判断するための情報が提供されます。そのために、この分析では、属性内で発生する個別値のパーセントを調べます。70%以上の個別値を持つ属性を一意キー分析の対象としてフラグを付けることもできます。たとえば、一意キー分析を使用して、EMP_ID列の95%の値が一意であることが判明したとします。さらに分析を進めると、残り5%のほとんどの値は重複かNULL値であることが判明しました。このことから、EMP_ID列に入力するすべてのエントリは一意の値でNULL値でないことを要求するルールを導出できます。