주요 용어들

주요 용어들

Node / Host / Server

할당받은 H200 서버 2대 그 자체입니다. 쿠버네티스(NKS) 클러스터를 구성하는 실제 컴퓨팅 자원이며,
모든 연산이 실제로 벌어지는 '물리적/가상 머신'을 의미합니다.

Workspace

MLXP 내에서 팀별로 분리된 가장 큰 최상위 작업 공간입니다.
할당받은 H200 서버 2대의 자원 풀은 일차적으로 Workspace에 소속되어 관리됩니다.

Project

워크스페이스 하위에 생성하는 개별 작업의 관리 단위입니다.

Project Namespace

프로젝트를 생성하면 시스템 내부적으로 자원 충돌을 막기 위해 생성되는 가상의 격리 공간 입니다.
이름은 p-{프로젝트 이름} 형식으로 지어지며, A 프로젝트의 설정이나 연산이 B 프로젝트에 영향을 주지 않습니다.

Volume

모델 파라미터나 학습 데이터를 영구적으로 저장하는 스토리지입니다.
Volume은 Project별로 할당되며, VPC로 전달되어 NKS가 VC를 할당합니다.

Pod

Kubernetes 환경에서 컨테이너를 실행하는 가장 작은 작업 단위입니다.
사실상 하나의 Jupyter Notebook 이라고 이해해도 무방합니다.
(Image가 Docker를 통해 Container로 구성되고, 이 container를 Pod으로 감싸서 실행)

VPC (Virtual Private Cloud)

Public Cloud 공간 내에 논리적으로 완전히 격리된 '전용 가상 네트워크 공간'을 만들어주는 서비스입니다.
  • 보안 및 격리성
    Pod, DDN Storage, H200 서버 노드들이 모두 ML expert-VPC 라는 거대한 테두리 안에 들어가 있습니다.
    이는 민감한 의료 데이터가 퍼블릭 인터넷망에 노출되지 않고 안전한 사설망 안에서만 처리되도록 보장합니다.
  • Subnet 구성
    VPC 내부를 다시 여러 개의 서브넷으로 나눌 수 있습니다.
    인터넷과 직접 통신해야 하는 웹 서버는 Public Subnet 에, 외부 접근을 차단해야 하는 DB나 학습용 GPU 노드는 Private Subnet에 배치하여 보안을 극대화합니다.
  • 네트워킹 통제
    VPC 를 구축하면 내부 서버들이 사용할 사설 IP 대역을 직접 지정할 수 있으며,
    방화벽 역할을 통해 접근가능한 Port, IP를 엄격하게 통제할 수 있습니다.

NKS (Naver Kubernetes Service)

저희가 실제로 사용하는 서비스입니다. Kubernetes System을 Naver 사에서 구축해놓은 하나의 Infra이자 서비스 제품입니다. 저희는 이 제품을 MLXP 서비스(저희가 실제 마주하는 UI)를 통해 이용합니다.