![]() 前へ |
![]() 次へ |
条件付き一致ルールの各属性に比較アルゴリズムを割り当て、属性値を比較する方法を指定します。複数の属性が、それぞれに選択した固有の比較アルゴリズムを持つ1つのルールで比較される場合があります。
表: 条件付き一致ルールに対する比較アルゴリズムのタイプは、比較のタイプについて説明しています。
条件付き一致ルールに対する比較アルゴリズムのタイプ
| アルゴリズム | 説明 |
|---|---|
|
Exact |
属性の値が完全に同じ場合にその属性は一致します。たとえば、「Dog」と「dog!」は、2番目の文字列が大文字始まりでなく、余分な文字が含まれているため、両者は一致しません。
|
|
標準化されたExact |
完全一致の比較前に、属性の値が標準化されます。標準化すると、比較時に大/小文字区別、空白および非英数字は無視されます。このアルゴリズムを使用すると「Dog」と「dog!」は一致となります。 |
|
Soundex |
データがSoundex表示に変換された後、テキスト文字列と比較されます。Soundex表示が一致する場合、2つの属性値は一致するとみなされます。 |
|
Edit Distance |
「類似度のスコア」に0から100を入力します。2つの属性の類似度が指定した値以上の場合、この属性値は一致するとみなされます。 類似度のアルゴリズムでは、2つの文字列のEdit Distanceが計算されます。値が100の場合、2つの値が同一であることを示し、値が0の場合はまったく類似していないことを示します。 たとえば、文字列「tootle」が文字列「tootles」と比較される場合、Edit Distanceは1です。文字列「tootles」の長さは7です。したがって、類似度の値は、(6/7)*100つまり85となります。 ここでは、LevenshteinEdit Distanceアルゴリズムが使用されています。 |
|
標準化されたEdit Distance |
類似度のアルゴリズムを使用して一致が判別される前に、属性の値が標準化されます。標準化すると、比較時に大/小文字区別、空白および非英数字は無視されます。 |
|
不完全な名前 |
ある属性の値全体が、同じ単語で始まる他の属性内に含まれる場合、文字列の属性の値は一致するとみなされます。たとえば、「Midtown Power」は「Midtown Power and Light」とは一致しますが、「Northern Midtown Power」とは一致しません。比較時に大/小文字区別および非英数字は無視されます。 |
|
略称 |
ある文字列内で一致する単語の略称が、他の文字列に含まれている場合、文字列の属性の値は一致するとみなされます。このアルゴリズムでは、略称の検出前に、標準化されたExact比較が文字列全体で実行されます。比較時に大/小文字区別および非英数字は無視されます。一致ルールでは、各単語に対して略称が検索されます。比較対象となる長い方の単語に、短い方の単語の文字がすべて含まれる場合、また、その文字が短い方の単語と出現順序が同じ場合、その単語は一致するとみなされます。 たとえば、「Intl. Business Products」は「International Bus Prd」と一致します。 |
|
頭文字 |
ある文字列が他の文字列の頭字語の場合、文字列の属性の値は一致するとみなされます。このアルゴリズムでは、頭字語を識別する前に、標準化されたExact比較が文字列全体で実行されます。一致しない場合は、ある文字列の各単語が、他の文字列内で一致する単語と比較されます。単語全体で一致しない場合、その文字列に含まれる単語の各文字が、他の文字列内の一致していない単語の最初の文字と比較されます。その文字が同じ場合、その名前は一致するとみなされます。 たとえば、「Chase Manhattan Bank NA」は「CMB North America」と一致します。比較時に大/小文字区別および非英数字は無視されます。 |
|
Jaro-Wrinkler |
「Edit Distance」アルゴリズムをさらに改良した比較システムを使用して、類似度の値に基づいて文字列を一致させます。文字列の長さが考慮され、先頭にあるエラーほど大きなペナルティが適用されます。また、一般的な誤植も認識されます。 その文字列は、類似度が指定する「類似度のスコア」のスコア以上の場合に一致します。類似度が100の場合、2つの文字列が同一であることを示します。類似度が0の場合は、まったく類似していないことを示します。実際にアルゴリズムにより計算された値(0.0から1.0)を100倍するとEdit Distanceスコアと対応することに注意してください。 |
|
標準化したJaro-Wrinkler |
大/小文字区別、空白および非英数字が排除されてから、「Jaro-Winkler」アルゴリズムを使用して一致が判別されます。 |
|
Double Metaphone |
「Soundex」アルゴリズムをさらに改良したコーディング・システムを使用して、発音の類似する文字列を一致させます。複数の方法で発音可能な文字列に対して2つのコードを生成します。最初のコードが2つの文字列と一致しているか、2番目のコードが2つの文字列と一致している場合、その文字列は一致しています。「Double Metaphone」アルゴリズムでは他に、イタリア語、スペイン語、フランス語、ゲルマンおよびスラブ系言語の発音が考慮されています。「Soundex」アルゴリズムとは異なり、「Double Metaphone」アルゴリズムは最初の文字をエンコードするため、「Kathy」と「Cathy」は同じ表音コードとして評価されます。 |