전세계 상위 0.1% 캐글 마스터,
김찬란님의 HP 워크스테이션 활용기 (Feat. 캐글 파헤치기)

 
 

NVIDIA® RTX 그래픽 탑재
인텔® 코어 i9 프로세서의 탁월한 성능을 경험해 보세요.

 

데이터 사이언스의 올림픽이라고 불리는 캐글(Kaggle)

 

캐글은 데이터 사이언스의 올림픽이라고 불리우는 플랫폼으로, 모든 분야의 인공 지능 기술로 문제를 풀고 있는 커뮤니티입니다. 대회 뿐만 아니라 코드 공유 등의 여러 활동들이 이루어지고 있어 인공지능 기술들이 더 빠르게 발전할 수 있도록 큰 역할을 하고 있습니다. 노트북 부분에서 캐글 마스터가 된 김찬란님은 “데이터 사이언스의 가장 중요한 것 중 하나는 데이터를 수집하는 것"이라고 강조했는데요. 캐글 커뮤니티에서는 대회를 통해 수집된 데이터 뿐만 아니라 개인이 소유하고 공유한 데이터도 활용할 수 있어서 데이터 분석을 시작할 때 캐글이 큰 도움이 된다고 말합니다.

 

캐글 마스터, 찬란님을 간단하게 소개해 주세요.

 

저는'캐글(Kaggle)’에서 노트북 부문 마스터(상위 0.1%, 약 250명)에 오른 캐글 마스터입니다.

캐글 마스터, 찬란님을 간단하게 소개해 주세요.

 

저는'캐글(Kaggle)’에서 노트북 부문 마스터(상위 0.1%, 약 250명)에 오른 캐글 마스터입니다.

 
 

노트북 부분은 데이터셋을 받은 후 어떤 방향으로 문제를 풀어나가는지, 그리고 얼마나 빠르게 이를 공유하느지에 따라 성적이 달라지는데요. 저는 분자 구조에 관한 시뮬레이션을 하는 대회에 참여하여 7~8분 걸리는 전 처리 과정을 몇 초만에 진행할 수 있도록 프로그래밍한 후 그 소스코드를 공유하여 좋은 성적을 얻었습니다. 그 결과로 노트북 부문 마스터에 오를 수 있었습니다.

 

2020년에는 데이터 사이언스 분야에서 새로운 도전을 하고 전문성을 키울 수 있도록 도와주는 HP의 글로벌 데이터 사이언스 프로그램의 앰버서더로 선정되어 현재까지 여러 활동에 참여해오고 있습니다.

 

캐글은 실제 비즈니스 세계와 동떨어진 커뮤니티이다? 아니다?

 

캐글에서는 다양한 경쟁(Competition) 속에서 데이터를 쌓아가고 있습니다. 여러 기업에서 자신들이 당면한 최신 문제를 해결하기 위해 실제 자신들의 데이터를 활용하여 문제를 제시하기도하고, 전세계에서 가장 많은 인공지능 문제들이 출제되고 풀리고 있는 곳이 캐글입니다.

 
 
 
 

최근 캐글에서 이루어진 대회 중에는 코로나 19 감염 여부를 PCR 검사가 아닌 엑스레이 이미지로 COVID-19으로 인한 흉부 이상 식별 및 위치 파악하는 법을 찾는 대회가 SIIM 주최 하에 있었는데요. 상금도 10만불이나 되었고, 전세계 의사 및 병원에서 이 대회에서 사용할 수 있는 데이터를 제공하며 더욱 정확한 결과값을 도출할 수 있도록 도움을 주어 실제로도 의미있는 성과를 거둘수 있었다고 합니다.

 

또한, 외계 신호를 찾는 대회가 미국 버클리 대학교 연구실에서 추최되었습니다. 확인되지 않은 미지의 신호를 외계 신호로 태깅하여 학습 데이터로 제시한 후, 아직 분석되지 않은 신호 데이터 중 비슷한 신호가 있는지 확인하는 대회였습니다. 실제 확인해 보니 판별되지 않는 미지의 신호들이 많이 있음을 확인할 수 있었으며 이 대회를 통해 추후 외계 신호를 자동적으로 판별할 수 있는 인공지능 데이터의 기반을 쌓을 수 있었습니다.

 

실제 데이터를 통해 3개월 뒤의 주가를 예측하는 대회도 진행되었습니다. 참가자들이 실제 데이터를 기반으로 3개월 뒤 주가를 예측하며, 3개월 뒤 실제로 그 결과를 확인하고 평가하는 대회였습니다.

 

          캐글의 대회들은 최신 문제들을 기반으로 주최된다는 점에서 더 가치가 있으며, 전세계 사람들이 연결되어 집단 지성으로 문제를 푼다는 점에서 더욱 더 높은 수준으로 문제를 해결할 수 있다는 장점이 있습니다. 뿐만 아니라 자신의 데이터셋과 코드를 공유(Sharing)하고, 문제점을 찾기도 합니다. 캐글의 대회 부문에서는 경쟁을 하지만, 노트북 부문에서는 공유하면서 서로 돕습니다. 다른 교육기관이나 회사에서는 느낄 수 없는 경험이죠. 전세계의 전문가들과 함께 경쟁과 공유를 반복하며 세계적인 수준의 데이터 사이언스 전문가로 거듭날 수 있습니다. ,,

 

캐글에서는 대회 참여에 동의를 해야 데이터 셋을 활용할 수 있습니다. 좀 더 깊게 코드에 관여할 수 있게 되는 형태입니다. 물론, 캐글에는 대회만 있는 것은 아닌데요. 데이터 셋, 노트북, 디스커션이라는 세 개의 분야가 더 있어서 데이터 셋 공유나, 코드 공유, 지식적 측면에서 관련 분야에서 어떤 최신 논문이 등에 대해서도 토론이 이뤄지고 있습니다. 주최하는 회사에 따라 대회 룰이 다르기는 하지만, 대체적으로 1등부터 5등까지의 상위권 솔루션은 공개하는 것을 룰에 포함하고 있습니다.

 

          다른 사람들의 솔루션을 보면 라이벌 기업은 어떻게 했는지 알고 싶지만 그게 쉽지가 않은게 현실이죠. 근데 캐글에서는 알 수 있어요. 라이벌들이 어떤 솔루션을 사용했는지에 볼 수 있으니까 성장하기 정말 좋고, 내가 겪지 않았던 시행착오들을 겪은 걸 보면서 다음번엔 어떻게 해야 될지 생각할 수 있는 거죠. ,,

 

인공지능 연구를 잘하는 인재가 먼저? 고성능의 컴퓨팅이 먼저?

 

데이터는 계속 복잡해지고 있습니다. 이전에는 단순한 테이블에 수치형 데이터가 다수였다면, 이제는 비정형의 자연어 처리나 이미지 데이터 연구를 위해 딥러닝이 진행되고 이 과정에 많은 컴퓨팅 리소스가 필요한 시대입니다. 심지어 이미지에서 시간의 축을 확장한 동영상에 대해서도 이같은 작업이 진행이 되고 있거든요. 데이터가 더 복잡해질수록 필요한 장비들이 더 많아지고, 장비 수준도 계속 높아질 수 밖에 없습니다.

 

          많은 데이터의 양을 가지고 분석하는 인공지능 분야는 더욱 컴퓨터의 성능에 결과값의 시간을 의존할 수밖에 없습니다. 빠른 솔루션을 도출하기 위해서는 연구를 잘하는 인재도 필요하지만, 그 인재의 능력을 뒷받침해 줄 수 있는 고성능의 컴퓨터가 필요하다고 생각합니다. 비즈니스는 물론 캐글에서도요. ,,

 

찬란님이 꼽은 HP워크스테이션의 장점

 

1. 장비 성능과 연구 시간 단축

 

장비의 높은 연산 성능과 준비된 분석 환경은 대회 준비에 필요한 세팅, 분석 시간도 대폭 줄여주는데, 계산에 실수나 오류가 생기더라도 회복 속도가 훨씬 빠르기 떄문입니다. 이는 제한된 시간 내 과제를 수행해야 하는 캐글 대회나 기업 프로젝트 환경에서도 이점으로 작용하는 부분입니다.

 
 

현재 많은 데이터 분석가가 구글의 '콜랩(Colab)' 같은 클라우드 기반 GPU 제공 서비스를 이용한다. 하지만 난이도 높은 문제를 풀게 될수록 데이터 분석에 더 많은 자원과 시간이 소모되는데, 성능이 제한적이고 사용량에 따라 요금이 지속적으로 부과되는 클라우드 서비스는 오래 사용할수록 재정적 부담이 따른다. 이 때문에 일부 전문가는 조립 PC를 만들어 쓰지만 이 역시 데이터 분석에 필요한 여러 장비 요구사항을 맞추는데 적잖은 비용과 시간이 드는 단점이 있다. 찬란 씨가 Z by HP 글로벌 앰배서더 활동을 수락한 이유도 전문 워크스테이션을 사용했을 때 데이터 분석 효과가 가시적으로 증가한다는 점을 확인했기 때문이다. 현재 업계에는 아직 HP처럼 데이터 분석에 특화된 장비를 제조하는 업체가 드물다.
출처: 김찬란님 인터뷰 내용 중 https://www.bloter.net/newsView/blt202107300003

 

김찬란님이 참가했던 캐글의 NFL Health & Safety – Helmet Assignment

 

미식축구에서 부상이 많이 발생하는 헬멧이 부딪히는 장면을 YouTube 동영상을 통해 잡아내고 경고를 주며 부상을 대비할 수 있도록 인공지능을 발전시키는 대회였습니다. 어느 컴퓨터와 견주어도 뒤쳐지지 않으며 엣지 기술로 데이터 전처리 작업을 빠르게 진행하는 HP Z4와 HP Zbook Studio G8로 찬란님은 남들보다 연구 상태에 있어 한발 앞선 상태에서 대회를 시작할 수 있었으며, 좋은 성능으로 다방면의 시도를 통해 더 좋은 결과를 얻을 수 있었습니다.

 
 

2. 데이터 분석에 필요한 소프트웨어가 사전 설치된 환경

 

HP의 데이터 사이언스 전용 워크스테이션의 경우, 데이터 사이언스에 필요한 필수 소프트웨어들을 손쉽게 설치할 수 있도록 선탑재하여 제공하고 있습니다.

 

현재 인공지능을 개발하시는 분들이 거의 다 사용 중인 Ubuntu 플랫폼이 사전 설치 되어 있으며, 데이터 사이언티스들이 딥러닝에 많이 사용하는 TensorFlow와 Keras, PyTouch가 제공됩니다. 이 소프트웨들은 자연어 처리나 이미지에 관련된 인공지능 작업시 자주 사용 되고 있습니다. 정형 데이터, 테이블 데이터와와 같은 데이터를 다루는 머신 러닝 작업에 필요한 scikit-learn와 XGBoost 같은 소프트웨어도 선탑재되어 있으며, 그 밖에도 데이터 사이언스를 위한 다양한 라이브러리가 제공되고 있습니다.

 

이런 라이브러리들이 정말 빠르게 발전하고 있고, 버전들이 계속 바뀌고 있습니다, 거기에 더해서 GPU 드라이버도 계속 새로운 버전이 나오니 GPU와 라이브러리 버전이 호환이 되는 걸 설치를 해야 문제없이 작동합니다. 처음 입문하시는 분들이나 세팅을 경험을 잘 못하신 분들은 시행착오를 너무 많이 겪습니다. 재설치하려고 하면 이전 버전을 지워야 하고, 컴퓨터 부팅도 다시 해야해서 시간을 많이 소모하게 됩니다. 심지어 자신의 소스코드 때문에 에러가 발생한 것인지, 설치나 셋팅을 잘못해서 발생한 것인지 구분하기 힘들며 이로 인해 많은 시간을 소모하기도 합니다.

 

HP워크스테이션의 경우 이런 어려움을 해소하기 위해 장비에 가장 최적화된 버전을 손쉽게 설치할 수 있도록 세팅되어 있습니다. 이에 장비 구매시 바로 세팅하여 연구 개발에 사용할 수 있으며, 버전을 잘못 설치했는지 고민하거나 재설치하는 시행 착오를 겪을 필요가 없으니 그 시간을 더 많은 연구에 사용할 수 있습니다.

 

선탑재된 소프트웨어 스택

 
 
HP는 Canonical과 파트너십을 맺고 최고의 성능을 발휘하도록 우분투 OS 최신 버전을 광범위하게 테스트 및 인증했습니다. 우분투 어드밴티지(옵션) 이용 시 연중무휴 24시간 전문 지원을 받을 수 있습니다.
 
데이터 분석 및 생성을 위한 가장 널리 사용되는 도구를 사용할 수 있습니다. 딥러닝에 필요한만큼 강력한 컴퓨터 파워가 필요합니다. 사용자 환경에 맞게 사용할 수 있도록 패키지 업데이트로 완벽하게 관리할 수 있습니다.
 
데이터 과학 애플리케이션을 손쉽게 만들고 배포하면서 데이터 과학 도구와 모델을 관리할 수 있습니다.
 
클라우드 명령줄에 액세스하여 메인 클라우드 환경을 원활하게 활용할 수 있습니다.
 

HP 데이터 사이언스 앰버서더 프로그램은?

 

HP는 앰배서더로 전세계 9개국에서 선정된 16명의 앰버서더에게 Z by HP 데스크탑, 노트북, 모니터 패키지를 제공하며 데이터 사이언스 연구에 활용할 수 있도록 돕는 프로그램을 운영하고 있습니다. 앰버서더들이 새로운 도전을 하고 전문성을 키울 수 있도록 도와 데이터 사이언스 세계에 기여하는 것에 가치를 두고 있습니다.

 

데이터 사이언스를 위한 추천 제품

 
 
HP Z4 G8
HP Z4 G8
 
HP에서 가장 많이 판매되는
고성능 워크스테이션
 
· Ubuntu 20.04
· 데이터 사이언스 소프트웨어 스택
· Intel® Xeon® W-2295 18C
· NVIDIA® RTX 8000 GPU (48GB)
· 192GB RAM
· 4TB PCIe NVMe SSD
 
자세히 보기
 
ZBOOK STUDIO G8
데이터 사이언스를 위한
최고의 워크스테이션
· Ubuntu 20.04
· 데이터 사이언스 소프트웨어 스택
· Intel® Core i9-10885H
· NVIDIA® RTX A5000 GPU (16GB)
· 32GB RAM
· 2TB PCIe NVMe SSD
자세히 보기
ZBOOK STUDIO G8
 
 

* 본 내용은 2021년 9월 30일 진행된 웨비나 내용을 토대로 제작되었습니다.

 

Ultrabook, 울트라북, Celeron, 셀러론, Celeron Inside, Core Inside, Intel, 인텔, Intel 로고, 인텔 로고, Intel Arc graphics, 인텔 Arc 그래픽, Intel Atom, 인텔 아톰, Intel Atom Inside, Intel Core, 인텔 코어, Intel Inside, Intel Inside 로고, Intel vPro, 인텔 v프로, Intel Evo, 인텔 Evo, Pentium, 펜티엄, Pentium Inside, vPro Inside, Xeon, 제온, Xeon Inside, Intel Agilex, 인텔 Agilex, Arria, Cyclone, Movidius, eASIC, Iris, Killer, MAX, Select Solutions, 셀렉트 솔루션, Stratix, Tofino, Intel Optane 및 인텔 Optane은 인텔사 또는 그 자회사의 상표입니다.