산학연 협력으로 구축한 데이터 전격 공개…
’상생’으로 만드는 자율주행
데이터는 자율주행과 인공지능 기술 발전의 중요한 자원입니다. 20세기 산업혁명을 이끈 동력이 석유였다면, 21세기 AI 산업을 움직이는 연료는 바로 데이터입니다. 특히 자율주행 기술은 카메라, 라이다, 레이더, GNSS 등 다양한 센서에서 수집된 방대한 데이터를 기반으로 주행 환경을 이해하고, 안전한 판단을 내릴 수 있도록 AI 모델을 학습하여 구현될 수 있습니다.
이러한 데이터는 양과 질 모든 측면에서 고도화되어야 하며, 그만큼 수집·가공·관리에 막대한 비용과 시간이 소요됩니다. 이에 따라 글로벌 자율주행 산업에서는 데이터를 민간이 독점하기보다 공유하고 생태계를 조성하는 방향으로 나아가고 있습니다.
실제로 Waymo, Motional 등 글로벌 자율주행 선도 기업들은 자사의 자율주행 데이터셋을 공개함으로써 연구자와 개발자들이 자유롭게 활용할 수 있도록 지원하고 있습니다. 이들은 오픈 데이터셋을 기반으로 관련 학계, 스타트업, 오픈소스 커뮤니티와의 연계를 강화하며, 자율주행 기술의 저변을 확장하고 있습니다. 이러한 흐름은 단순한 기술 경쟁을 넘어서, 산업 전체의 발전을 위한 협력 기반 생태계 전략으로 평가받고 있습니다.
카카오모빌리티 역시 이러한 글로벌 흐름에 발맞춰, ‘공유’와 ‘생태계 확장’을 핵심 가치로 삼고 자율주행 기술의 미래를 함께 그려가고 있습니다. 단순한 기술 개발을 넘어서, 누구나 활용 가능한 공개 데이터 기반의 개방형 생태계를 조성하며, 국내 자율주행 인공지능 기술의 혁신과 저변 확대에 노력하고 있습니다. 이번 ≪테크에식스 19호≫에서는 카카오모빌리티의 자율주행 생태계 구축을 위한 노력을 소개합니다.
고품질 데이터 생산을 위한 산학연 합동 컨소시엄
카카오모빌리티는 과학기술정보통신부와 자율주행기술개발혁신사업단의 『자율주행 학습용 데이터 수집·가공 기술 개발』 사업의 일환으로, 한국전자통신연구원, KT, 모라이, 테슬라시스템, 에이아이빌, KAIST, GIST, 국민대학교와 함께 2021년부터 2024년까지 산학연 협력 컨소시엄을 구성하여 연구개발을 수행하였습니다.
본 과제는 자율주행 레벨 4 수준(표 참고)의 실현을 목표로, 차량·도로 인프라·클라우드 간 연계를 기반으로 하는 기술 체계를 구축하고, 이를 통해 고도화된 AI 학습 데이터를 안정적으로 생산할 수 있는 기반을 마련하는 데에 집중하였습니다. 이를 위해 실제 도로 환경에서 운행되는 차량과 도로 인프라를 활용한 다중센서 데이터 수집 시스템을 구성하였으며, 수집된 데이터를 통합·관리할 수 있는 클라우드 기반 프레임워크를 개발하였습니다.

공동 연구개발의 결과로 다중센서 융합형 자율주행 AI 학습 데이터셋을 구축하였습니다. 자율주행 서비스 시범지구를 포함한 전국의 3만 km 이상의 실도로 주행 데이터에는 총 15만 프레임 이상의 9개 유형의 AI 학습데이터가 가공되어 누구든지 무료로 사용할 수 있도록, ETRI 나눔 플랫폼을 통해 공개되었습니다.
자율주행 AI 데이터 생산 프로세스
카카오모빌리티는 고품질의 자율주행 AI 학습 데이터를 생산하기 위해, 실제 도로 기반의 전방위 데이터 수집부터 클라우드 기반의 가공, 검증, 배포에 이르는 전주기 데이터 생산 체계를 구축하였습니다. 이 프로세스는 차량, 도로 인프라, 클라우드 시스템이 유기적으로 연결된 구조로 구성되어 있으며, 각 단계에서 정확도, 확장성, 운영 효율성을 함께 고려하였습니다.
먼저 데이터 수집 단계에서는 자율주행 수집 차량과 고정형 엣지 인프라(신호등, 도로 표지판, CCTV 등)가 활용됩니다. 각 수집 시스템에는 용도에 따라 카메라, 라이다, 레이더, GNSS/IMU 등 다양한 센서가 탑재되어 있으며, 고속도로, 도심, 교차로 등 다양한 실도로 환경에서 주행하며 데이터를 수집합니다. 도로변에는 엣지 인프라를 구축하여, 차량 센서만으로는 인식이 어려운 사각지대나 음영 지역의 동적 객체 정보를 보완적으로 확보합니다.


수집된 센서 데이터는 고정밀 위치 정보를 기준으로 시공간 동기화를 수행하며, 이와 함께 다중 센서 간의 캘리브레이션(calibration: 센서의 측정값을 정확하게 만드는 과정. 카메라가 인식한 위치와 라이다가 인식한 위치 간의 오차를 줄이고 정확하게 정보를 주고 받도록 함) 작업을 통해 오차를 정밀하게 보정합니다. 이후 센서 융합(sensor fusion) 기술을 적용하여 개별 센서가 인식한 정보를 통합하고, 3차원 좌표계 변환(mapping) 및 정합(alignment) 기술을 통해 통일된 공간 표현체계로 데이터를 구성합니다. 이러한 과정을 통해 다양한 소스의 데이터를 하나의 데이터셋으로 일관되게 통합할 수 있습니다.


이후 데이터는 가공 및 정제 단계를 거칩니다. 이 단계에서는 3차원 동적객체 검출 및 추적, 신호등 인식, 세그멘테이션(Segmentation) 등 다양한 학습 절차에 필요한 어노테이션(Annotation) 작업이 수행됩니다. 카카오모빌리티는 자체 개발한 어노테이션 자동화 도구를 활용해 작업 효율성을 높이고, 능동학습(Active Learning) 기반의 데이터 선별 기술을 적용하여 학습 효과가 높은 데이터를 우선 가공합니다. 이러한 접근은 어노테이션 자동화율 87.9%, 객체 검출 정확도 81 mAP(mean Average Precision: 객체 검출 모델의 정확도를 나타내는 지표)의 성과로 이어졌습니다.

가공된 데이터는 품질 검증과 표준화 과정을 통해 최종 데이터셋으로 완성됩니다. 컨소시엄 협력을 통해 개발한 품질 측정 자동화 도구를 활용하여, 적합성, 구문 정확성, 의미 정확성, 유효성 등을 정량적으로 평가하고, 표준화된 구조와 포맷으로 정제합니다.
이러한 데이터 생산 과정을 거쳐 카카오모빌리티는 실용적이고 유연한 자율주행 AI 데이터 인프라를 만들어가고 있으며, 이를 바탕으로 자율주행 기술의 실증과 확산을 차근차근 추진하고 있습니다.

자율주행 데이터에는 차량 외부 환경을 인식하기 위한 영상정보가 포함되며, 이 과정에서 불가피하게 사람의 얼굴이나 차량 번호판과 같은 개인정보가 촬영될 수 있습니다. 이러한 정보는 데이터의 공공 활용성과 신뢰성을 확보하기 위해 반드시 보호되어야 하며, 관련 법적·윤리적 기준에 따라 적절한 비식별화 처리가 요구됩니다.
카카오모빌리티는 자율주행 AI 학습 데이터 구축 과정에서 수집되는 모든 영상정보에 대해 체계적인 비식별화 프로세스를 운영하고 있습니다. 영상 내 사람 얼굴과 차량 번호판 등 민감정보 항목을 자동으로 탐지한 뒤, 지정된 규칙에 따라 블러(Blur) 또는 마스킹(Masking) 처리를 적용하여 식별 가능성을 사전에 차단하고 있습니다.
비식별화 처리에는 객체 탐지 기술과 추적 자동화 모델이 활용되며, 움직이는 객체에 대해서도 안정적으로 대응할 수 있도록 설계하였습니다. 아울러 해상도, 조명, 촬영 각도 등 다양한 영상 조건에서도 높은 탐지 성능을 유지할 수 있도록 최적화된 탐지 모델을 적용하고 있습니다.
이후 별도의 검수 과정을 통해 처리된 영상의 비식별화 품질을 확인하며, 신뢰도가 확보된 경우에만 가공 및 공개용 데이터셋으로 활용합니다. 이를 통해 카카오모빌리티는 데이터 활용성과 개인정보 보호 간의 균형을 유지하고 있으며, 개인정보보호법 등 관련 법령을 준수하는 체계를 지속적으로 강화하고 있습니다.
자율주행 AI 챌린지를 통한 데이터 생태계 활성화자율주행 기술의 발전을 위해서는 고품질 데이터뿐만 아니라, 이를 활용할 수 있는 다양한 주체들의 참여와 협력이 중요합니다. 특히 연구자, 개발자, 학생, 스타트업 등이 자율주행 데이터를 실험적으로 활용해볼 수 있는 기회를 제공함으로써, 기술의 저변을 넓히고 생태계 전반의 역량을 끌어올릴 수 있습니다.
카카오모빌리티는 자율주행 학습용 데이터의 공개와 함께, 해당 데이터를 기반으로 한 '2024년 자율주행 인공지능 챌린지'를 과학기술정보통신부, 한국전자통신연구원, 정보통신기획평가원, 자율주행기술개발혁신사업단, 자율주행 DNA 기술포럼과 함께 개최하여 생태계 활성화를 유도하였습니다. 챌린지는 “차량용 3D 객체 검출, 차량용 객체 복합상태 인식, 차량용 신호등 인식, 엣지-인프라용 3D 객체 검출” 4개 분야로 구성되었으며, 누구나 참여 가능한 방식으로 운영되어 279개 팀의 기업, 스타트업, 대학, 일반인 등 다양한 배경을 가진 팀들이 참여하였습니다. 특히 실도로 주행 데이터를 직접 다뤄보며, 참가자들이 자율주행 기술을 실제로 구현하는 경험에 가까운 기회를 얻을 수 있었습니다.
챌린지 최종 평가 및 시상식은 2024년 11월 19일 대전 유성구 한국전자통신연구원에서 개최되었습니다. 그 결과, 차량용 3D 객체 검출 분야의 최우수상 수상팀에는 과학기술정보통신부 장관상과 상금이 수여되었습니다. 이외에도 각 분야별 최우수상 및 우수상 팀들에게는 카카오모빌리티 대표상, 정보통신기획평가원장상, 한국전자통신연구원장상과 함께 상금이 제공되었습니다.

카카오모빌리티는 공개 챌린지를 통해 공개 데이터셋이 실제로 어떻게 활용될 수 있는지를 함께 실험해보았고, 연구자와 개발자들이 중심이 되는 자율주행 AI 생태계를 조금씩 넓혀갈 수 있는 발판을 마련하고자 노력했습니다. 앞으로도 기술에 관심이 있는 누구나 부담 없이 참여하고, 함께 성장할 수 있는 열린 환경을 만들기 위해 꾸준히 노력하려 합니다.
자율주행 생태계 구축을 위한 지속적 노력
카카오모빌리티는 자율주행 기술이 모두의 일상에 자연스럽게 스며드는 미래를 준비하고 있습니다.
단순히 기술을 개발하는 것을 넘어, 더 많은 사람들이 함께 참여하고 실험할 수 있도록 개방하고 공유하는 것 역시 ‘기술이 만드는 더 나은 세상’을 위한 중요한 방향이라고 믿고 있습니다.
카카오모빌리티의 김정민 데이터인텔린저스 실장의 각오로 글을 마무리합니다
“앞으로도 카카오모빌리티는 우리가 함께 발전할 수 있도록 데이터와 기술을 공개하여 열린 생태계를 만들기 위해 노력하겠습니다. 이를 통해 자율주행 기술이 특정 기업의 소유가 아닌, 모두가 함께 만드는 사회적 자산으로 자리잡을 수 있도록 하겠습니다.”
- Tech Ethics 오픈소스로 AI 생태계에 기여하는 카카오브레인의 노력
#AI#Karlo#공유#오픈소스#카카오브레인
- Tech Ethics 이용자 데이터 보호를 위한 끊임없는 카카오엔터프라이즈의 혁신
#데이터#보안#이용자#카카오엔터프라이즈#클라우드
- Tech Ethics 이용자의 안전과 데이터 보호를 우선하는 자율주행
#AI#모빌리티혁명#자율주행#자율주행동맹#카카오모빌리티