[Scale AI] 자율주행차 AI 아이플리케이션을 위한 free LiDAR 데이터 세트

>

스케일 AI는 학술적, 상업적 활용을 위한 새로운 오픈 소스 데이터 세트를 출시하여 자율주행 조사의 성장을 가속한다.데이터 코멘트/태그/분류(annotation/tagging/classification)라고도 불리는 데이터 라벨링은 라벨로 데이터 셋을 태그(즉, 라벨링)하는 과정입니다. 이 프로세스의 품질은 라벨되지 않은 데이터 셋에서 동일한 패턴을 식별하고 라벨을 예측하기 전에 라벨을 예측하는 데이터에서 패턴을 학습하는 감독된 기계 학습 알고리즘에 필수적입니다.

>

자율주행 어플리케이션의 경우 의사결정 비결에 대해 기계학습(Machine Learning, ML) 알고리즘을 명시적으로 하는 것을 가장 싫어하는 경우가 많은데 대신 우리는 딥러닝(Deep Learning, DL) 모델에서 데이터를 제공합니다. 실제로 DL모델은 외형은 제한없이 더 많은 데이터를 사용하여 자신감을 가질 수 있습니다. 그러면 내가 제대로 기능하는 모델을 얻기 위해서는 단순히 많은 데이터를 보유하는 것만으로는 충분하지 않고, 고품질의 데이터 주석도 필요할 것입니다.이를 염두에 두고 Scale AI는 자율주행차, 지도제작, AR/VR, 로봇공학 등 AI 응용프로그램 교육 데이터의 발달을 목표로 하고 있습니다. 스케일 AICEO 겸 공동창업자인 Alexandr Wang은 최근 TechCrunch와의 인터뷰에서 “기계학습은 분명히 쓰레기통이며 쓰레기는 일종의 틀이며 – 이러한 알고리즘에 구현하려면 수준 높은 데이터가 정화되어야 한다. 이것이 바로 우리가 스케일을 구축한 이유이며, 역시 당일 이 데이터 세트를 오픈 소스 관점에서 산업을 발전시키기 위해 사용하는 이유이다.”라고 밝혔다.

>

이번 주에는 LiDAR제 연구 Hesai와 협력하여 자율주행 도전에 적용하는 등 ML 모델 교육에 사용할 수 있는 새로운 데이터세트인 PandaSet을 출시하였습니다. 데이터 셋은 학술 및 상업용으로 무료 및 라이선스가 부여되며 Hesai 전방을 위한 Pandar GT LiDAR 및 Pandar 64라는 기계적 회전 LiDAR를 사용하여 수집된 데이터를 포함합니다.​

>

광각 카메라, 장초점 카메라, 기계회전 LidAR (Pandar 64) 1대, 고체 상태의 LiDAR (Pandar GT) 1대가 탑재된 차량/Scale AI 이 데이터는 San Francisco와 Silicon Valley의 도시지면을 주행하면서 수집된 것으로, 도시지면을 운전하는 동안 관계자가 해당 지면에서 재택 COVID-19 명령을 내리기 전에 수집된 것이다.(대기업에 따르면) 데이터 셋 구성: • 48,000개의 Cidate aloudliples. AR 1개, Camera 6개, on-borad GPS/IMUPandaSet은 28개의 객체 클래스를 위한 3D 틀 박스와 활동, 가시성, 위치, 포즈와 관련된 다양한 학급 속성 세트를 포함한다. 또한 데이터세트에는 , 자전거, 신호등, 보행자로 가득한 복잡한 도시환경 속에서 연기, 자동차 배기가스, 식물, 주행가능한 표면을 포함한 37개의 의미있는 라벨이 포함된 Point Cloud Segmentation이 포함되어 있습니다.

>

그 외에 훌륭한 오픈 소스 자율 주행차의 데이터 세트가 존재하지만, 이번에는 아무런 제한 없이 데이터 세트를 라이센스하려는 새로운 시도입니다.끼어드는 자율주행차가 매우 기술적으로 복잡한 것으로, 그 중 하나만으로도 매우 과도한 노력을 하지 않으면 파악할 수 없는 것이 많습니다. 기존의 기술뿐만 아니라 새로운 기술까지 예상되고 있습니다. 그런 이유로 제가 드릴 수 있는 기술적인 이야기에는 한계가 있습니다. 기술적으로는 깊은 이야기까지는 전할 수 없습니다만, 참고해 주셨으면 하는 것을 전하고 있습니다. 이것을 여과하는 것도 과인무감정을 합니다. 그런 선별 작업 중에서 가장 많이 전하는 이야기는 아마 자율주행차 유출 데이터 세트 정보가 아닐까 생각합니다. 아까도 Waymo, Aptiv, Lyft 등의 기업 뉴스를 통해서 각종 조사기관의 것, 또 WEF를 가운데로 하는 데이터 공유도 소개했습니다.그럼 수많은 기업, 조사소, 대학, 기관에서 왜 자율 주행차의 데이터를 공유하고 있는 건가요? 유출을하는각자가가지고있는목적은다를수있겠지만,결국적으로더많은사람들이자율주행차량에관심을가지고조사하고개발할수있는환경을구축하기위함이아닌가생각합니다. 결국 자율주행차가 가지고 있는 사회적 영향력을 이해하고 보다 빠르게, 기술적으로, 사회적으로 활성화되기를 바랄 것입니다.이번에 소개한 Scale AI는 과인 무데이터 세트에 대한 기술력을 인정받은 기업입니다. 기존의 자율주행차 개발기관의 데이터 라벨 작업을 진행하는 것으로 알려져 있습니다. 최근에는 이렇게 사람의 수작업이 아닌 자동으로 라벨 작업을 하는 기술이 적용되어 기업에 활용되고 있습니다. 이렇게 앞서가는 가운데서 진행되던 라벨링 작업은 점차 LiDAR 데이터의 공유를 통해 보다 기술적으로 확장성을 갖게 되었습니다. 조사를 목적으로 하는 사람들에게는 높은 LiDAR 기기를 구축하기가 쉽지 않으므로 이러한 데이터의 존재는 올바르게 지원될 것입니다.결국 데이터 셋은 AI의 학습 능력을 향상시킬 목적으로 쓰이기 때문에 많은 데이터가 필요할 것입니다. 최근DataScience라는다른학문으로생각되는AI위한데이터는정말대부분분야에서활용되는것같습니다. 자주 데이터를 분류하고, 관리하고, 적절하게 사용하는 것과 같이, 단지 숫자만으로 존재하는 , 사람의 생명에 위험.이 될 가능성은 높지 않아 보입니다. 물론 돈을 잃을 수는 있어요. 하지만 자율주행차 AI는 그 목적이 사람의 안전을 더 높이는 것이기 때문에 이를 위해 사용되는 소프트웨어는 기존의 소프트웨어 개발 관점에서 접근하면 쉽지 않을 수 있습니다. 잘못된 소프트웨어는 직접적인 위험 요소가 될 수 있기 때문입니다. 이런 이유로 자율주행차 소프트웨어 개발에 사람들은 더 높은 기준을 적용하려고 합니다. 아직 명확한 기준은 없습니다. 물론 자동차 회사들은 기존의 보통 수준을 적용하기 위해 새로 시장에 진출한 기업들로서는 새로운 기준을 필요로 합니다. 이 관계도 매우 복잡합니다.결국 복잡한 문제를 해결할 수 있는 것은 더 많은 사람들이 관심을 갖고 머리를 모아야 그 ‘과인마 절충안’이 등장하지 않을까 싶습니다. 현재 수많은 기관에서 보통 작업을 위한 노력을 하고 있습니다. 물론 각자의 입장에서 이야기죠. 누가 맞아서 틀림없겠죠. 결국 사람은 합리적인 선택을 하게 됩니다. 그러기 위해서는 시작해야 하고, 경험을 하고, 문재점도 찾아야 합니다. 이렇게 해서 그 경험을 공유하면서 한 사람 앞으로 한 걸음 더 과인이 되어 가는 방향을 만들어야 합니다. 물론 너무 많은 이해당사자가 존재하기 쉽지 않습니다. 그래도 언젠가는 바다로 흘러가지 않을까 생각합니다.데이터 세트의 공유는 그러한 큰 흐름에 한 숟가락의 물을 더하는 것이 아닐까 생각합니다.이번에 유출된 Dataset입니다.

PS:검색으로 들어오고, 만약 원하시는 이야기를 찾을 수 없다면, 「태그」도 「검색」하면 보다 많은 자료를 얻을 수 있습니다. 그래도 뭐 찾고 싶은 게 있으시면 저한테 연락 주시면 (이메일, 메시지) 제가 아는 선에서 도와드리겠습니다. 부다음을 가지지 않아도 됩니다.Over the Vehicle!!!참고 자료