![]() 前へ |
![]() 次へ |
照合およびマージのプロセスを理解するうえで、次の概念と用語は重要です。
一致bin
一致binは、類似するレコードのためのコンテナで、潜在的な一致を識別するために使用されます。一致bin属性は、レコードが一致bin内に分類される方法を判別するために使用されます。照合の実行中は、同じ一致bin内のレコードのみが比較されます。一致binによりデータ・セット内の潜在的な一致の数が制限されるので、一致アルゴリズムのパフォーマンスが向上します。
一致bin属性
照合を実行する前に、Warehouse Builderによりソース・レコードが分割され、より小規模な類似するレコードのグループになります。一致bin属性はソース属性で、レコードの分類方法の決定に使用されます。同じ一致bin属性を持つレコードは、同じ一致bin内に存在します。また一致bin属性により、管理可能なセットになるように一致binが制限されます。
次の競合するニーズを満たすように、慎重に一致bin属性を選択します。
一致するすべてのレコードが必ず同じ一致bin内に存在するようにします。
一致binサイズをできるかぎり小規模にします。
一致を識別するには、同じbinに含まれるレコード同士を照合する必要があるため、一致binのサイズは小さいほうが効率的です。binが大きければ大きいほど、パフォーマンスは低下します。
一致レコードのセット
一致レコードのセットは、1つ以上の類似するレコードで構成されています。レコードの照合の後、各一致binに対して一致レコードのセットが作成されます。2つのレコードが類似する場合に判別する一致ルールを定義できます。
マージ済レコード
マージ済レコードには、一致レコードのセット内の複数のレコードを使用してマージされたデータが含まれています。各一致レコードのセットにより、独自のマージ済レコードが生成されます。