지식 관리 (Knowledge)
D.Hub의 Knowledge 모듈은 비정형 데이터를 검색 가능한 지식으로 변환하는 플랫폼입니다.

핵심 기능
Knowledge 모듈은 다음 기능을 제공합니다:
- 문서 수집: 웹 크롤링, 파일 업로드, 수동 입력 등 다양한 소스에서 데이터를 수집합니다
- AI 채팅: RAG(Retrieval-Augmented Generation) 기반으로 수집된 지식에 대해 AI와 대화합니다
- 검색 테스트: Vector, Full-Text, Hybrid 검색 모드로 지식의 품질을 검증합니다
- Knowledge 설정: 저장소 타겟, 임베딩 모델, 메타데이터를 관리합니다
핵심 용어
처음 접할 때 자주 나오는 용어를 쉽게 풀어 정리했습니다. 세부 설정은 몰라도 아래 개념만 알면 대부분의 기능을 사용할 수 있습니다.
| 용어 | 쉬운 설명 |
|---|---|
| 청크 (Chunk) | 문서를 검색하기 좋게 잘게 나눈 텍스트 조각입니다. |
| 토큰 (Token) | 텍스트 길이를 세는 단위입니다(대략 단어 한 개 안팎). 청크 크기를 토큰 수로 지정합니다. |
| 인덱싱 (Indexing) | 수집한 문서를 청크로 나누고 검색용 저장소에 등록하는 과정입니다. |
| 임베딩 (Embedding) | 문장을 "의미가 비슷할수록 가까운" 숫자로 바꾼 것입니다. 의미 기반 검색에 쓰입니다. |
| 시맨틱 검색 (벡터 검색) | 단어가 정확히 일치하지 않아도 의미가 비슷한 내용을 찾는 검색입니다. |
| 키워드 검색 (텍스트 검색) | 입력한 단어가 그대로 들어 있는 내용을 찾는 검색입니다. |
| 하이브리드 검색 | 시맨틱 검색과 키워드 검색 결과를 합쳐 장점을 모두 활용하는 방식입니다. |
| RAG | 질문과 관련된 문서를 먼저 찾은 뒤 그 내용을 근거로 AI가 답변을 만드는 방식입니다. |
데이터 소스
Knowledge는 세 가지 방법으로 데이터를 수집할 수 있습니다:
| 소스 | 설명 | 지원 형식 |
|---|---|---|
| 웹 크롤링 | URL을 기반으로 웹 페이지를 자동 수집 | HTML, 동적 페이지 (JS 렌더링) |
| 파일 업로드 | 문서 파일을 직접 업로드하여 처리 | PDF, DOCX, PPTX, XLSX, HTML, TXT, MD |
| 수동 입력 | 텍스트 청크를 직접 작성하여 등록 | 자유 형식 텍스트 |
다중 저장소 아키텍처
수집된 데이터는 용도에 따라 최대 세 가지 저장소에 동시 저장됩니다:
| 저장소 | 엔진 | 용도 |
|---|---|---|
| Vector DB | 벡터 검색 엔진 | 의미 기반 유사도 검색 (임베딩 벡터) |
| Text DB | 텍스트 검색 엔진 | 키워드 기반 전문 검색 (BM25) |
| Graph DB | 그래프 데이터베이스 | 엔티티/관계 기반 그래프 탐색 (현재 비활성, 향후 제공) |
팁
Knowledge 생성 시 저장소 타겟을 선택할 수 있습니다. GRAPH는 현재 선택 비활성 상태이므로, 실제 사용 가능한 조합은 Vector + Text입니다.
목록 페이지
Knowledge 목록 페이지(/knowledge)는 다른 list page와 동일한 테이블 UX를 따릅니다.
- 별칭 우선 표시: 별칭(alias)이 1차 라벨, 시스템 이름은 보조.
- Owner 컬럼: 호버 시 사용자/그룹 미리보기 팝오버.
- 인덱싱 상태 집계: 문서 (Documents) 탭에서 진행 중인 문서 수, 실패 수, 완료 수가 헤더에 함께 노출.
- 소속 컬렉션이 삭제된 경우: 컬렉션 셀에 raw UUID 대신 (삭제된 컬렉션) 안내가 표시됩니다.
Knowledge 상세 화면
Knowledge를 선택하면 다음 4개 탭으로 구성된 상세 화면이 표시됩니다:
| 탭 | 설명 |
|---|---|
| 문서 (Documents) | 수집된 문서 목록 관리 및 새 문서 추가 |
| 채팅 (Chat) | RAG 기반 AI 채팅으로 지식에 질문 |
| 검색 (Search) | 검색 쿼리를 테스트하고 결과 품질 확인 |
| 설정 (Settings) | 메타데이터, 저장소 옵션, 임베딩 모델 관리 |