버전: Next

핵심 개념

D.Hub를 효과적으로 활용하기 위해 알아야 할 핵심 개념들을 소개합니다. 각 구성 요소가 어떤 역할을 하고, 서로 어떻게 연결되는지 이해하면 플랫폼을 더 빠르게 활용할 수 있습니다.

구성 요소 관계도

아래 다이어그램은 D.Hub의 핵심 구성 요소들이 어떻게 연결되는지 보여줍니다.

Collection (컬렉션)

컬렉션은 D.Hub에서 리소스를 논리적으로 그룹화하는 최상위 컨테이너입니다. 프로젝트, 부서, 주제 등 원하는 기준으로 관련 리소스들을 하나로 묶어 관리할 수 있습니다.

하나의 컬렉션에는 다음 리소스들을 포함할 수 있습니다:

Dataset — 구조화된 데이터 테이블
Code — 재사용 가능한 코드 아티팩트
Pipeline — 데이터 처리 워크플로우
Knowledge — 비정형 문서 지식 저장소

컬렉션을 활용하면 팀별 또는 프로젝트별로 데이터 자산을 체계적으로 정리하고, 접근 권한을 일괄 관리할 수 있습니다.

→ 자세히 알아보기: 컬렉션 관리

Dataset (데이터셋)

데이터셋은 구조화된 데이터를 저장하고 관리하는 단위입니다. D.Hub의 데이터셋은 내부적으로 Delta Lake 테이블 형식으로 저장되어 버전 관리와 스키마 관리를 자동으로 지원합니다.

데이터셋을 생성하는 방법:

CSV 파일 업로드 — 로컬 CSV 파일을 업로드하면 스키마를 자동 추론하여 테이블로 변환합니다
템플릿 기반 생성 — 미리 정의된 템플릿을 사용하여 데이터셋 구조를 빠르게 구성합니다
API 호출 — REST API를 통해 프로그래밍 방식으로 생성합니다

각 데이터셋은 고유한 버전 이력을 가지며, SQL 또는 Python 쿼리를 통해 데이터를 조회하고 분석할 수 있습니다.

→ 자세히 알아보기: 데이터셋 위자드

Code (코드)

코드는 D.Hub 내에서 재사용 가능한 코드 아티팩트를 관리하는 리소스입니다. Python 스크립트와 SQL 쿼리를 작성하고, 이를 파이프라인의 노드로 연결하여 데이터 처리에 활용할 수 있습니다.

지원하는 코드 유형:

유형	용도
Python	데이터 변환, API 호출, 복잡한 비즈니스 로직 구현
SQL	데이터 조회, 집계, 테이블 간 조인 처리

AI Assistant의 코드 생성 기능을 활용하면 자연어로 요구사항을 설명하여 코드를 자동 생성할 수도 있습니다.

→ 자세히 알아보기: 코드 위자드

Pipeline (파이프라인)

파이프라인은 데이터 처리 과정을 시각적으로 설계하고 실행하는 워크플로우 시스템입니다. 노드 기반 편집기에서 드래그 앤 드롭으로 데이터 흐름을 구성하고, 워크플로우 엔진을 통해 자동 실행합니다.

파이프라인의 핵심 구성:

노드(Node) — 개별 처리 단계 (데이터 읽기, 변환, 저장 등)
엣지(Edge) — 노드 간의 데이터 흐름 연결
실행(Run) — 파이프라인의 단일 실행 인스턴스

파이프라인은 수동 실행 외에도 스케줄이나 이벤트 기반으로 자동 트리거할 수 있어, 반복적인 데이터 처리를 완전히 자동화할 수 있습니다.

→ 자세히 알아보기: 파이프라인 워크플로우 편집기

Ontology (온톨로지)

온톨로지는 데이터 간의 의미적 관계를 엔티티(Entity)와 관계(Relationship)로 모델링하는 기능입니다. 정의된 모델은 그래프 데이터베이스에 저장되어, 복잡한 데이터 관계를 직관적으로 탐색할 수 있습니다.

온톨로지의 주요 구성:

엔티티(Entity) — 실세계의 객체를 표현 (예: 사용자, 제품, 센서)
관계(Relationship) — 엔티티 간의 연결을 정의 (예: "소유한다", "위치한다")
속성(Property) — 엔티티와 관계에 부여되는 세부 정보

온톨로지 빌더에서 시각적으로 모델을 구성하고, 그래프 탐색기에서 관계 네트워크를 인터랙티브하게 탐색할 수 있습니다.

→ 자세히 알아보기: 온톨로지 개요

Knowledge (지식 관리)

Knowledge는 비정형 데이터를 수집하고 지식화하여 AI 기반 검색과 대화에 활용하는 기능입니다. 웹 페이지 크롤링, 파일 업로드, 직접 작성 등 다양한 방법으로 문서를 수집하고, 이를 자동으로 청킹(Chunking)하고 임베딩(Embedding)하여 벡터 데이터베이스에 저장합니다.

수집된 지식은 RAG(Retrieval-Augmented Generation) 기반의 AI Chat을 통해 자연어로 질의할 수 있습니다. 사용자의 질문에 대해 관련 문서를 검색하고, LLM이 문맥에 맞는 답변을 생성합니다.

지원하는 문서 수집 방법:

웹 크롤링 — URL을 지정하여 웹 페이지 자동 수집
파일 업로드 — PDF, DOCX, TXT 등 문서 파일 직접 업로드
직접 작성 — 에디터를 통한 수동 문서 입력

→ 자세히 알아보기: 지식 관리 개요

Dashboard (대시보드)

대시보드는 데이터를 시각적으로 표현하고 모니터링하는 기능입니다. 분석 데이터베이스를 백엔드로 활용하여 대규모 데이터에 대한 실시간 집계와 시각화를 빠르게 수행합니다.

대시보드의 핵심 기능:

위젯(Widget) — 차트, 테이블, 지표 등 다양한 시각화 컴포넌트
데이터 연결 — SQL 쿼리 또는 간편 모드로 데이터셋과 연결
실시간 갱신 — 데이터 변경 시 자동으로 시각화 업데이트

위젯 라이브러리에서 원하는 차트 유형을 선택하고, 데이터셋의 컬럼을 매핑하여 직관적인 대시보드를 구성할 수 있습니다.

→ 자세히 알아보기: 대시보드 개요

다음 단계

핵심 개념을 이해했다면, 직접 플랫폼을 사용해 보세요.

첫 화면 둘러보기 — D.Hub의 화면 구성을 살펴봅니다
퀵스타트 — 5분 만에 데이터셋 업로드부터 대시보드까지 완성합니다
역할별 가이드 — 본인의 역할에 맞는 학습 경로를 선택합니다

구성 요소 관계도​

Collection (컬렉션)​

Dataset (데이터셋)​

Code (코드)​

Pipeline (파이프라인)​

Ontology (온톨로지)​

Knowledge (지식 관리)​

Dashboard (대시보드)​

다음 단계​