안녕하세요 jiogenes입니다.

제가 연구하고 있는 곳에서는 각자 일정 할당량 만큼 서버에서 하드웨어 자원을 분배받아 사용하고 있는데요.

큼직한 프로젝트 많이 따와서 GPU ram 용량이 큰 서버를 구축하고 연구도 수월하게 하는 선순환적인 연구실도 있겠지만 대부분은 거대한 LLM 모델을 수월하게 돌리기 힘들것 같습니다.

image

저는 시궁창까진 아니더라도 1080ti 한 대를 물려받아 사용중이었습니다만 연구주제가 자연어 쪽이다 보니 커져만 가는 모델사이즈 덕분에 OOM은 기본이고 더이상 실험을 돌려볼 수 조차 없는 상황이 되었습니다 😭

그래서 LLM 연구에서 클라우드 활용은 필수라는 말을 들어서 돈이 좀 들더라도 클라우드 서비스를 이용해보기로 했습니다.

Google Cloud, Microsoft Azure, Amazon AWS 등 많은 클라우드 서비스를 비교해가면서 찾다보니 클라우드 지식이 거의 없어도 사용하기 편한 클라우드 서비스를 발견했습니다.

바로 RunPod입니다.

RunPod 사용방법

그럼 사용법을 알아보겠습니다.

회원가입

회원가입을 해줍니다. 구글계정으로 하면 3초정도면 끝납니다.

Untitled

Cloud 선택

로그인을 하면 이런 대시보드가 뜹니다.

보안을 위해서는 Secure Cloud를 선택하고 보안이 필요없으면 Community Cloud를 선택합니다.

Secure Cloud가 좀 더 비싸기 때문에 저는 Community Cloud를 선택했습니다.

Untitled 1

팟 선택

그러면 이렇게 팟을 선택할 수 있는 대시보드가 뜹니다.

Untitled 2

결제

디플로이를 해보면 돈이 없다면서 안됩니다 ㅜㅜ

결제먼저 하러 가야겠습니다.

왼쪽 메뉴에서 Biling 탭을 클릭해서 들어갑니다.

Untitled 3

결제는 비자나 마스터카드로 진행하면 됩니다.

결제가 완료되면 다음 팝업이 뜹니다.

Community Cloud 클릭해서 아까 전 대시보드로 가보겠습니다.

Untitled 4

SSH 공개 key 설정

그리고 추가적으로 터미널을 이용해 접속하기 위해서 SSH public key를 설정해 줍시다.

터미널을 열어서 다음 명령어를 터미널에 입력합니다.

ssh-keygen 명령어 입력시 이메일을 가입한 자기 이메일로 바꿔 주세요.

Untitled 5

만들어진 공개키를 cat으로 출력 후 그대로 복사합니다.

RunPod으로 돌아가 왼쪽 메뉴에서 Settings 탭을 클릭한 후 SSH Public Keys에 붙여넣기 합니다.

Untitled 6

팟 생성

이제 새로운 팟을 만들 준비가 끝났습니다!

Community Cloud에 들어가서 연습삼아 RTX3090을 선택해 보겠습니다.

Untitled 7

디플로이를 누르면 다음 창이 뜹니다.

자동으로 Pytorch 2.1 버전이 선택되어있습니다.

그리고 Customize Deployment 버튼에서 내부 disk 용량을 바꿀 수 있습니다.

On-Demand일 때는 $0.34/hr 이지만 Spot일 때는 좀 더 쌉니다. 대신에 중간에 꺼질수도 있는것 같네요. Spot은 모델을 인퍼런스할 때만 사용하는 것이 좋겠습니다.

Untitled 8

마지막 단계입니다. 디플로이를 누르면 RTX 3090이 달린 서버가 만들어집니다.

Untitled 9

디플로이를 하면 처음에 부팅을 하는 모습이 보여집니다.

잠시 기다리면 됩니다.

Untitled 10

다 만들어 지면 이런 창이 뜹니다.

접속

Connect를 눌러 접속해 봅시다.

Untitled 11

SSH key 설정을 했기 때문에 ssh로 접속할 수 있는 명령어를 제공해줍니다.

Untitled 12

일반 터미널은 방화벽 때문에 막혀있어서 Web Terminal로 접속해 보니 잘 됩니다.

Untitled 13

주피터 노트북도 잘 돌아갑니다.

Untitled 14

터미널에서 용량을 확인해 보겠습니다.

Untitled 15

GPU 정보도 출력해 봅니다.

Untitled 16

python에서 pytorch도 실행해봅니다.

Untitled 17

종료

이제 팟을 종료해 봅시다.

stop버튼(네모버튼)을 누르면 다음 팝업이 뜨는데 이게 끝이 아니고 terminate 까지 해야 더이상 요금이 부과되지 않는다네요

Untitled 18

재시작 버튼 옆에 쓰레기통 모양의 버튼이 terminate 버튼입니다.

terminate 버튼을 누르면 만들었던 팟이 없어진 것을 알 수 있습니다.

Untitled 19

약 300만원 짜리 그래픽카드를 시간당 약 500원 정도에 이렇게 간단하게 사용할 수 있다니 정말 놀랍습니다.

다음 포스팅에서는 RunPod으로 LLM을 파인튜닝 해볼 예정입니다.

읽어주셔서 감사합니다.