Skip to main content
Version: Next

용어 사전

D.Hub 문서에서 사용되는 주요 용어와 기술 개념을 정리한 사전입니다. 알파벳 순서로 정렬되어 있습니다.


플랫폼 용어

용어설명
Batch대량의 데이터를 일괄 처리하는 작업 단위입니다. 체크포인트를 통해 처리 진행 상황을 추적할 수 있습니다.
CheckpointBatch 처리 중 특정 시점의 진행 상태를 기록한 스냅샷입니다. 오류 발생 시 해당 지점부터 처리를 재개할 수 있습니다.
Chunk지식에 수집된 문서를 검색과 임베딩에 적합한 크기로 분할한 텍스트 조각입니다. 청킹 전략에 따라 고정 크기, 마크다운 기반, 계층적 분할 등을 선택할 수 있습니다.
Collection데이터셋, 코드, 파이프라인, 지식 등 관련 리소스를 논리적으로 그룹화하는 최상위 컨테이너입니다.
Collection Item컬렉션에 포함된 개별 리소스(데이터셋, 코드, 파이프라인, 지식)를 가리킵니다.
Dataset Version데이터셋의 특정 시점 상태를 나타내는 버전입니다. Delta Lake의 트랜잭션 로그를 통해 모든 변경 이력이 자동으로 기록됩니다.
Embedding텍스트를 고차원 벡터 공간의 수치 표현으로 변환한 결과입니다. 의미적으로 유사한 텍스트는 가까운 벡터 값을 가지며, 이를 통해 유사도 기반 검색이 가능합니다.
Manifest데이터셋, 파이프라인 등 리소스의 메타데이터와 구성 정보를 담고 있는 정의 파일입니다. S3 스토리지에 JSON 형태로 저장됩니다.
Ontology Entity온톨로지에서 실세계의 개체를 표현하는 노드입니다. 사용자, 제품, 센서 등 도메인 객체를 정의하며, 속성(Property)을 가질 수 있습니다.
Ontology Relationship온톨로지 엔티티 간의 의미적 연결을 정의하는 간선(Edge)입니다. "소유한다", "위치한다" 등의 관계를 표현합니다.
Pipeline Node파이프라인 내의 개별 처리 단계입니다. 데이터 읽기, 변환, 필터링, 저장 등의 작업을 수행하며, 노드 간 연결을 통해 데이터 흐름을 구성합니다.
RAGRetrieval-Augmented Generation의 약자로, 외부 문서를 검색(Retrieve)하여 LLM의 답변 생성(Generation)을 보강하는 기술입니다. 지식의 AI Chat에서 활용됩니다.
Vector DB벡터(숫자 배열) 형태의 데이터를 저장하고 유사도 기반 검색을 수행하는 특화된 데이터베이스입니다. D.Hub에서는 임베딩된 문서 청크의 저장과 검색에 사용됩니다.

AI 관련 용어

용어설명
BM25문서 내 키워드 빈도와 문서 길이를 기반으로 관련성을 계산하는 전통적인 텍스트 검색 알고리즘입니다. 지식의 텍스트 검색에서 활용됩니다.
Hybrid Search키워드 기반 검색(BM25)과 벡터 유사도 검색을 결합하여 검색 정확도를 높이는 방식입니다. Reciprocal Rank Fusion(RRF)을 사용하여 두 검색 결과를 병합합니다.
LLMLarge Language Model의 약자로, 대규모 텍스트 데이터로 학습된 언어 모델입니다. GPT, Claude 등이 대표적이며, D.Hub의 AI Chat과 코드 생성에서 활용됩니다.
Reranker초기 검색 결과를 LLM 또는 교차 인코더 모델로 재정렬하여 질문과의 관련성이 높은 문서를 상위에 배치하는 후처리 단계입니다.
Retriever사용자 질의에 대해 관련 문서를 검색하는 모듈입니다. D.Hub에서는 텍스트 검색, 벡터 검색, 하이브리드 검색을 지원합니다.

다음 단계

  • 핵심 개념 — D.Hub 구성 요소의 관계를 이해합니다
  • 퀵스타트 — 5분 만에 D.Hub 핵심 워크플로우를 체험합니다
  • API 개요 — REST API 레퍼런스를 확인합니다