본문 바로가기

[오라클 레퍼런스 함수] FEATURE_COMPARE - 문서 유사성 또는 비유사성 비교

by ㅇㅍㅍ 2023. 8. 5.
[오라클 레퍼런스 함수] FEATURE_COMPARE - 문서 유사성 또는 비유사성 비교
728x90

FEATURE_COMPARE

 

구문

FEATURE_COMPARE ( [ schema . ] model
  mining_attribute_clause AND mining_attribute_clause )

 

mining_attribute_clause::=
USING
{ * 
| { [ schema . ] table . * 
  | expr [ AS alias ]
  }
    [, { [ schema . ] table . * 
       | expr [ AS alias ]
       }
    ]...
}

 

목적

FEATURE_COMPARE 함수는 Feature Extraction 모델을 사용하여 두 가지 다른 문서 또는 키워드 구문 또는 두 속성 목록과 같은 짧은 문서의 유사성 또는 비유사성을 비교하는 데 사용됩니다. FEATURE_COMPARE 함수는 특이값 분해(SVD), 주성분 분석(PCA), 비음수 행렬 분해(NMF), 명시적 의미 분석(ESA)과 같은 Feature Extraction 알고리즘과 함께 사용할 수 있습니다. 이 함수는 문서 뿐만 아니라 숫자 및 범주형 데이터에도 적용 가능합니다.

FEATURE_COMPARE 함수의 입력은 Oracle Data Mining의 Feature Extraction 알고리즘(NMF, SVD, ESA 등)을 사용하여 구축된 단일 특징 모델입니다. 이중 USING 절은 모델에서 추출된 특징을 사용하여 두 가지 다른 문서 또는 고정된 키워드 구문 또는 두 가지의 조합을 유사성 또는 비유사성을 비교하는 메커니즘을 제공합니다.

FEATURE_COMPARE 함수의 구문은 파티셔닝된 모델을 스코어링할 때 선택적으로 GROUPING 힌트를 사용할 수 있습니다. GROUPING 힌트에 대해서는 GROUPING Hint 문서를 참조하십시오.

 

mining_attribute_clause

mining_attribute_clause는 점수화에 사용할 column 속성들을 식별합니다. 함수가 분석적 문법으로 호출될 때, 이러한 예측자(predictor)들은 임시 모델을 구축하는 데에도 사용됩니다. mining_attribute_clausePREDICTION 함수에 대해 설명된대로 동작합니다. mining_attribute_clause 문서를 참조하세요.

 

참고:

 

노트: 다음 예제는 데이터 마이닝 샘플 프로그램에서 발췌되었습니다. 샘플 프로그램에 대한 자세한 내용은 Oracle Data Mining User's Guide의 부록 A를 참조하세요.

 

예제

ESA(Explicit Semantic Analysis) 모델은 2005년 Wiki 데이터셋을 기반으로 구축되었으며 20만개 이상의 특징(feature)이 있습니다. 이 문서들은 텍스트로 채굴되며 문서 제목들은 특징 식별자로 고려됩니다.

다음 예제들은 ESA 알고리즘을 사용하는 FEATURE_COMPARE 함수를 보여줍니다. 이 함수는 유사한 집합의 텍스트와 이와 다른 집합의 텍스트를 비교합니다.

 

유사한 텍스트(Similar texts)

SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'Nick Price won the 2002 Mastercard Colonial Open' text) similarity FROM DUAL;

SIMILARITY
----------
      .258

 

출력 메트릭은 거리 계산 결과를 보여줍니다. 따라서 더 작은 숫자는 더 유사한 텍스트를 나타냅니다. 따라서 쿼리에서 거리를 빼고 1을 더하면 문서 유사성 메트릭(similarity metric)이 됩니다.

 

유사하지 않은 텍스트(Dissimilar texts)

SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'John Elway played quarterback for the Denver Broncos' text) similarity FROM DUAL;

SIMILARITY
----------
      .007

 


출처: 오라클 레퍼런스

원문 링크: Oracle FEATURE_COMPARE 함수 문서

 

반응형

댓글