-
Elasticsearch 분석기내가 공부하고 싶은 IT/지식정리 2022. 12. 25. 20:31
Elasticsearch 의 분석기는
- 토크나이저 (Tokenizer)
- 토큰 필터 (Token Filter)
로 구성되어 있음
분석기 동작 프로세스
- 문장을 특정한 규칙에 의해 수정
- 전처리 필터 (CHARACTER FILTER; char_filter)
- 문장 분석 전 replaceAll()같은 패턴 처리나, 태그 제거 등의 역할
- 토크나이저 내부에서도 전처리가 가능하기 때문에 활용도는 떨어짐
- 대표적인 전처리 필터 : html_strip
기본적으로 html 태그를 모두 삭제하지만 escaped_tags 파라미터를 통해 특정 태그만 예외처리 가능
- 수정한 문장을 개별 토큰으로 분리
- 토크나이저 필터 (TOKENIZER FILTER)
- 분석기의 핵심 구성요소로, 텍스트를 어떻게 나눌 것인지 정의
- 언어 및 특징에 따라 다른 종류의 Tokenizer를 사용하며 하나의 분석기만 사용 가능
기본 토크나이저 필터 아래 참고
- 개별 토큰을 특정한 규칙에 의해 변경
- 토큰 필터 (TOKEN FILTER)
- 토큰화된 단어를 하나씩 필터링하여 사용자가 원하는 형태로 변환
- 불필요한 단어 제거, 동의어 처리, 영문의 소문자 변환 작업 등
- 토크나이저에 의해 토큰이 모두 분리되어야 동작하므로 독립 사용 불가
기본 토큰 필터 아래 참고
기본 분석기 종류
ElasticSearch 는 기본적으로 아래와 같이 3개의 분석기를 제공
분석기 적용 토크나이저 적용 토큰 필터 Standard AnalyzerStandard TokenizerLowercase Token FilterWhitespace AnalyzerWhitespace Tokenizer-Keyword AnalyzerKeyword Tokenizer-'내가 공부하고 싶은 IT > 지식정리' 카테고리의 다른 글
Elasticsearch bool 쿼리 (0) 2023.01.01 Elasticsearch DSL 기본 (0) 2023.01.01 Elasticsearch Inverted Index 의 이해 (0) 2022.12.25 Elasticsearch 분석기 테스트 (0) 2022.12.25 포인트(Point) 테이블 설계 (0) 2022.11.20