본문으로 건너뛰기
버전: v0.1.0

용어 사전

D.Hub 문서에서 사용되는 주요 용어와 기술 개념을 정리한 사전입니다. 알파벳 순서로 정렬되어 있습니다.


플랫폼 용어

용어설명
Alias별칭. 모든 자원이 시스템 이름(name) 외에 별도로 가지는 표시명. 트리·테이블·검색 결과 등 사용자 표면에서 1차 라벨로 사용됩니다.
Batch대량의 데이터를 일괄 처리하는 작업 단위입니다. 체크포인트를 통해 처리 진행 상황을 추적할 수 있습니다.
CheckpointBatch 처리 중 특정 시점의 진행 상태를 기록한 스냅샷입니다. 오류 발생 시 해당 지점부터 처리를 재개할 수 있습니다.
Chunk지식에 수집된 문서를 검색과 임베딩에 적합한 크기로 분할한 텍스트 조각입니다. 청킹 전략에 따라 고정 크기, 마크다운 기반, 계층적 분할 등을 선택할 수 있습니다.
Collection데이터셋, 코드, 파이프라인, 지식 등 관련 리소스를 논리적으로 그룹화하는 최상위 컨테이너입니다.
Collection Item컬렉션에 포함된 개별 리소스(데이터셋, 코드, 파이프라인, 지식)를 가리킵니다.
Dataset Version데이터셋의 특정 시점 상태를 나타내는 버전입니다. Delta Lake의 트랜잭션 로그를 통해 모든 변경 이력이 자동으로 기록됩니다.
Display Column온톨로지 엔티티/관계의 인스턴스를 UI에서 1차 라벨로 식별할 컬럼. 스키마 전체에서 하나만 지정합니다.
HITL (Human-in-the-Loop)파이프라인 또는 에이전트 실행 중간에 사람의 승인을 받아야 하는 단계. 채팅 표면에 승인 요청 카드가 게시되고, 사용자가 승인 / 거부 / 입력 수정 중 하나를 선택해야 다음 단계로 진행합니다.
Identity Keys온톨로지 엔티티/관계의 인스턴스를 고유하게 식별하는 키 컬럼(들). 파이프라인의 Entity/Relation I/O가 동작하려면 반드시 정의되어 있어야 합니다.
Embedding텍스트를 고차원 벡터 공간의 수치 표현으로 변환한 결과입니다. 의미적으로 유사한 텍스트는 가까운 벡터 값을 가지며, 이를 통해 유사도 기반 검색이 가능합니다.
Manifest데이터셋, 파이프라인 등 리소스의 메타데이터와 구성 정보를 담고 있는 정의 파일입니다. S3 스토리지에 JSON 형태로 저장됩니다.
Ontology Entity온톨로지에서 실세계의 개체를 표현하는 노드입니다. 사용자, 제품, 센서 등 도메인 객체를 정의하며, 속성(Property)을 가질 수 있습니다.
Ontology Relationship온톨로지 엔티티 간의 의미적 연결을 정의하는 간선(Edge)입니다. "소유한다", "위치한다" 등의 관계를 표현합니다.
Pipeline Node파이프라인 내의 개별 처리 단계입니다. 데이터 읽기, 변환, 필터링, 저장 등의 작업을 수행하며, 노드 간 연결을 통해 데이터 흐름을 구성합니다.
RAGRetrieval-Augmented Generation의 약자로, 외부 문서를 검색(Retrieve)하여 LLM의 답변 생성(Generation)을 보강하는 기술입니다. 지식의 AI Chat에서 활용됩니다.
Vector DB벡터(숫자 배열) 형태의 데이터를 저장하고 유사도 기반 검색을 수행하는 특화된 데이터베이스입니다. D.Hub에서는 임베딩된 문서 청크의 저장과 검색에 사용됩니다.
DRS (Dashboard Range Selector)대시보드 상단의 전역 날짜 범위 컨트롤. 위젯이 명시적 시간 설정을 갖지 않으면 DRS의 범위가 자동으로 위젯 쿼리에 주입됩니다.
JWT Relay포털의 OIDC JWT를 부속 마이크로서비스(dhub2-agent 등)로 그대로 전달하여 사용자 권한 컨텍스트를 보존하는 패턴(ADR-0053).

AI 관련 용어

용어설명
BM25문서 내 키워드 빈도와 문서 길이를 기반으로 관련성을 계산하는 전통적인 텍스트 검색 알고리즘입니다. 지식의 텍스트 검색에서 활용됩니다.
Hybrid Search키워드 기반 검색(BM25)과 벡터 유사도 검색을 결합하여 검색 정확도를 높이는 방식입니다. Reciprocal Rank Fusion(RRF)을 사용하여 두 검색 결과를 병합합니다.
LLMLarge Language Model의 약자로, 대규모 텍스트 데이터로 학습된 언어 모델입니다. GPT, Claude 등이 대표적이며, D.Hub의 AI Chat과 코드 생성에서 활용됩니다.
Reranker초기 검색 결과를 LLM 또는 교차 인코더 모델로 재정렬하여 질문과의 관련성이 높은 문서를 상위에 배치하는 후처리 단계입니다.
Retriever사용자 질의에 대해 관련 문서를 검색하는 모듈입니다. D.Hub에서는 텍스트 검색, 벡터 검색, 하이브리드 검색을 지원합니다.

다음 단계

  • 핵심 개념 — D.Hub 구성 요소의 관계를 이해합니다
  • 퀵스타트 — 5분 만에 D.Hub 핵심 워크플로우를 체험합니다
  • API 개요 — REST API 레퍼런스를 확인합니다