ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Elasticsearch 분석기
    내가 공부하고 싶은 IT/지식정리 2022. 12. 25. 20:31

    Elasticsearch 의 분석기는

    • 토크나이저 (Tokenizer)
    • 토큰 필터 (Token Filter)

    로 구성되어 있음

     

    분석기 동작 프로세스

    • 문장을 특정한 규칙에 의해 수정
      • 전처리 필터 (CHARACTER FILTER; char_filter)
      • 문장 분석 전 replaceAll()같은 패턴 처리나, 태그 제거 등의 역할
      • 토크나이저 내부에서도 전처리가 가능하기 때문에 활용도는 떨어짐
      • 대표적인 전처리 필터 : html_strip
        기본적으로 html  태그를 모두 삭제하지만 escaped_tags 파라미터를 통해 특정 태그만 예외처리 가능

    • 수정한 문장을 개별 토큰으로 분리
      • 토크나이저 필터 (TOKENIZER FILTER)
      • 분석기의 핵심 구성요소로, 텍스트를 어떻게 나눌 것인지 정의
      • 언어 및 특징에 따라 다른 종류의 Tokenizer를 사용하며 하나의 분석기만 사용 가능
        기본 토크나이저 필터 아래 참고

    • 개별 토큰을 특정한 규칙에 의해 변경
      • 토큰 필터 (TOKEN FILTER)
      • 토큰화된 단어를 하나씩 필터링하여 사용자가 원하는 형태로 변환
      • 불필요한 단어 제거, 동의어 처리, 영문의 소문자 변환 작업 등
      • 토크나이저에 의해 토큰이 모두 분리되어야 동작하므로 독립 사용 불가
        기본 토큰 필터 아래 참고

     

    기본 분석기 종류

    ElasticSearch 는 기본적으로 아래와 같이 3개의 분석기를 제공

     
    분석기 적용 토크나이저 적용 토큰 필터
    Standard Analyzer
    Standard Tokenizer
    Lowercase Token Filter
    Whitespace Analyzer
    Whitespace Tokenizer
    -
    Keyword Analyzer
    Keyword Tokenizer
    -
Copyright @ 2016-2020 AmazonEberea