본문으로 건너뛰기
버전: Next

핵심 개념

D.Hub를 효과적으로 활용하기 위해 알아야 할 핵심 개념들을 소개합니다. 각 구성 요소가 어떤 역할을 하고, 서로 어떻게 연결되는지 이해하면 플랫폼을 더 빠르게 활용할 수 있습니다.

구성 요소 관계도

아래 다이어그램은 D.Hub의 핵심 구성 요소들이 어떻게 연결되는지 보여줍니다.

Collection (컬렉션)

컬렉션은 D.Hub에서 리소스를 논리적으로 그룹화하는 최상위 컨테이너입니다. 프로젝트, 부서, 주제 등 원하는 기준으로 관련 리소스들을 하나로 묶어 관리할 수 있습니다.

하나의 컬렉션에는 다음 리소스들을 포함할 수 있습니다:

  • Dataset — 구조화된 데이터 테이블
  • Code — 재사용 가능한 코드 아티팩트
  • Pipeline — 데이터 처리 워크플로우
  • Knowledge — 비정형 문서 지식 저장소

컬렉션을 활용하면 팀별 또는 프로젝트별로 데이터 자산을 체계적으로 정리하고, 접근 권한을 일괄 관리할 수 있습니다.

→ 자세히 알아보기: 컬렉션 관리

Dataset (데이터셋)

데이터셋은 구조화된 데이터를 저장하고 관리하는 단위입니다. D.Hub의 데이터셋은 내부적으로 Delta Lake 테이블 형식으로 저장되어 버전 관리와 스키마 관리를 자동으로 지원합니다.

데이터셋을 생성하는 방법:

  • CSV 파일 업로드 — 로컬 CSV 파일을 업로드하면 스키마를 자동 추론하여 테이블로 변환합니다
  • 템플릿 기반 생성 — 미리 정의된 템플릿을 사용하여 데이터셋 구조를 빠르게 구성합니다
  • API 호출 — REST API를 통해 프로그래밍 방식으로 생성합니다

각 데이터셋은 고유한 버전 이력을 가지며, SQL 또는 Python 쿼리를 통해 데이터를 조회하고 분석할 수 있습니다.

→ 자세히 알아보기: 데이터셋 위자드

Code (코드)

코드는 D.Hub 내에서 재사용 가능한 코드 아티팩트를 관리하는 리소스입니다. Python 스크립트와 SQL 쿼리를 작성하고, 이를 파이프라인의 노드로 연결하여 데이터 처리에 활용할 수 있습니다.

지원하는 코드 유형:

유형용도
Python데이터 변환, API 호출, 복잡한 비즈니스 로직 구현
SQL데이터 조회, 집계, 테이블 간 조인 처리

AI Assistant의 코드 생성 기능을 활용하면 자연어로 요구사항을 설명하여 코드를 자동 생성할 수도 있습니다.

→ 자세히 알아보기: 코드 위자드

Pipeline (파이프라인)

파이프라인은 데이터 처리 과정을 시각적으로 설계하고 실행하는 워크플로우 시스템입니다. 노드 기반 편집기에서 드래그 앤 드롭으로 데이터 흐름을 구성하고, 워크플로우 엔진을 통해 자동 실행합니다.

파이프라인의 핵심 구성:

  • 노드(Node) — 개별 처리 단계 (데이터 읽기, 변환, 저장 등)
  • 엣지(Edge) — 노드 간의 데이터 흐름 연결
  • 실행(Run) — 파이프라인의 단일 실행 인스턴스

파이프라인은 수동 실행 외에도 스케줄이나 이벤트 기반으로 자동 트리거할 수 있어, 반복적인 데이터 처리를 완전히 자동화할 수 있습니다.

→ 자세히 알아보기: 파이프라인 워크플로우 편집기

Ontology (온톨로지)

온톨로지는 데이터 간의 의미적 관계를 엔티티(Entity)와 관계(Relationship)로 모델링하는 기능입니다. 정의된 모델은 그래프 데이터베이스에 저장되어, 복잡한 데이터 관계를 직관적으로 탐색할 수 있습니다.

온톨로지의 주요 구성:

  • 엔티티(Entity) — 실세계의 객체를 표현 (예: 사용자, 제품, 센서)
  • 관계(Relationship) — 엔티티 간의 연결을 정의 (예: "소유한다", "위치한다")
  • 속성(Property) — 엔티티와 관계에 부여되는 세부 정보

온톨로지 빌더에서 시각적으로 모델을 구성하고, 그래프 탐색기에서 관계 네트워크를 인터랙티브하게 탐색할 수 있습니다.

→ 자세히 알아보기: 온톨로지 개요

Knowledge (지식 관리)

Knowledge는 비정형 데이터를 수집하고 지식화하여 AI 기반 검색과 대화에 활용하는 기능입니다. 웹 페이지 크롤링, 파일 업로드, 직접 작성 등 다양한 방법으로 문서를 수집하고, 이를 자동으로 청킹(Chunking)하고 임베딩(Embedding)하여 벡터 데이터베이스에 저장합니다.

수집된 지식은 RAG(Retrieval-Augmented Generation) 기반의 AI Chat을 통해 자연어로 질의할 수 있습니다. 사용자의 질문에 대해 관련 문서를 검색하고, LLM이 문맥에 맞는 답변을 생성합니다.

지원하는 문서 수집 방법:

  • 웹 크롤링 — URL을 지정하여 웹 페이지 자동 수집
  • 파일 업로드 — PDF, DOCX, TXT 등 문서 파일 직접 업로드
  • 직접 작성 — 에디터를 통한 수동 문서 입력

→ 자세히 알아보기: 지식 관리 개요

Dashboard (대시보드)

대시보드는 데이터를 시각적으로 표현하고 모니터링하는 기능입니다. 분석 데이터베이스를 백엔드로 활용하여 대규모 데이터에 대한 실시간 집계와 시각화를 빠르게 수행합니다.

대시보드의 핵심 기능:

  • 위젯(Widget) — 차트, 테이블, 지표 등 다양한 시각화 컴포넌트
  • 데이터 연결 — SQL 쿼리 또는 간편 모드로 데이터셋과 연결
  • 실시간 갱신 — 데이터 변경 시 자동으로 시각화 업데이트

위젯 라이브러리에서 원하는 차트 유형을 선택하고, 데이터셋의 컬럼을 매핑하여 직관적인 대시보드를 구성할 수 있습니다.

→ 자세히 알아보기: 대시보드 개요

다음 단계

핵심 개념을 이해했다면, 직접 플랫폼을 사용해 보세요.