一致binページで、比較する行数を制限します。行の照合時には、同じグループ内で各行が他の行と1つずつ比較されていきます。データ・セット全体ではなく、bin内でのみ一致するデータが検索されるため、行数を制限するとパフォーマンスが大幅に向上します。
理想的には、グループごとの行数を2000行未満にとどめる必要があります。実行される比較の件数は、次の計算式に基づきます。
n=(b*(b-1))/2
nは比較の件数を示し、bはbin内のレコード数を示します。
たとえば、5件のレコードを照合するには10回、50件のレコードを照合するには1,225回、500件のレコードを照合するには124,750回比較を行う必要があります。
「一致bin」の定義で、行を適度な数のグループに分離できますが、一致するはずの行までが分離されるようなことは避ける必要があります。類似行のグループに選択する属性は、データによって異なります。たとえば、100万行の顧客アドレスの表がある場合には、部分的な番地名、都市名および郵便番号でデータをグループ化できます。
使用可能な属性
すべての入力属性が表示され、ビニングに使用する属性を選択できます。
選択された属性
行が特定のbinに含まれるために一致する必要のある1つ以上の属性。「ソース属性」リストと「出力属性」リストの間で属性を移動するには、1つ以上の属性を選択して2つのリスト間にある矢印をクリックします。右側にある矢印を使用すると、属性を順序付けして、一般的な属性(「国」など)を上部に、限定的な属性(「番地」など)を下部に表示できます。
新規レコードのみ一致
初回の配布後に、全レコードを照合してマージするか新規レコードのみを照合してマージするかを選択できます。パフォーマンスへの影響を考慮して、同じデータを2回照合してマージするのを避けることができます。かわりに、クレンジングされていない新規データのみを照合してマージできます。このオプションを選択すると、クレンジングされていないデータをデータ・ウェアハウスに追加できます。
新規レコード条件
新規レコードの識別に使用される条件式が表示されます。省略記号のボタンをクリックすると、「新規レコード条件一致エディタ」(「式ビルダー」ユーザー・インタフェース)が表示されます。