| Batch | 대량의 데이터를 일괄 처리하는 작업 단위입니다. 체크포인트를 통해 처리 진행 상황을 추적할 수 있습니다. |
| Checkpoint | Batch 처리 중 특정 시점의 진행 상태를 기록한 스냅샷입니다. 오류 발생 시 해당 지점부터 처리를 재개할 수 있습니다. |
| Chunk | 지식에 수집된 문서를 검색과 임베딩에 적합한 크기로 분할한 텍스트 조각입니다. 청킹 전략에 따라 고정 크기, 마크다운 기반, 계층적 분할 등을 선택할 수 있습니다. |
| Collection | 데이터셋, 코드, 파이프라인, 지식 등 관련 리소스를 논리적으로 그룹화하는 최상위 컨테이너입니다. |
| Collection Item | 컬렉션에 포함된 개별 리소스(데이터셋, 코드, 파이프라인, 지식)를 가리킵니다. |
| Dataset Version | 데이터셋의 특정 시점 상태를 나타내는 버전입니다. Delta Lake의 트랜잭션 로그를 통해 모든 변경 이력이 자동으로 기록됩니다. |
| Embedding | 텍스트를 고차원 벡터 공간의 수치 표현으로 변환한 결과입니다. 의미적으로 유사한 텍스트는 가까운 벡터 값을 가지며, 이를 통해 유사도 기반 검색이 가능합니다. |
| Manifest | 데이터셋, 파이프라인 등 리소스의 메타데이터와 구성 정보를 담고 있는 정의 파일입니다. S3 스토리지에 JSON 형태로 저장됩니다. |
| Ontology Entity | 온톨로지에서 실세계의 개체를 표현하는 노드입니다. 사용자, 제품, 센서 등 도메인 객체를 정의하며, 속성(Property)을 가질 수 있습니다. |
| Ontology Relationship | 온톨로지 엔티티 간의 의미적 연결을 정의하는 간선(Edge)입니다. "소유한다", "위치한다" 등의 관계를 표현합니다. |
| Pipeline Node | 파이프라인 내의 개별 처리 단계입니다. 데이터 읽기, 변환, 필터링, 저장 등의 작업을 수행하며, 노드 간 연결을 통해 데이터 흐름을 구성합니다. |
| RAG | Retrieval-Augmented Generation의 약자로, 외부 문서를 검색(Retrieve)하여 LLM의 답변 생성(Generation)을 보강하는 기술입니다. 지식의 AI Chat에서 활용됩니다. |
| Vector DB | 벡터(숫자 배열) 형태의 데이터를 저장하고 유사도 기반 검색을 수행하는 특화된 데이터베이스입니다. D.Hub에서는 임베딩된 문서 청크의 저장과 검색에 사용됩니다. |