상세 컨텐츠

본문 제목

자율주행 AI 데이터라벨링을 학습해 보았습니다.

AI-VR-AR

by 김일국 2024. 1. 27. 11:45

본문

지난 2024.01.22(월)~26(금) 까지 5일간 [자율주행 AI-Crew 양성과정] 을 MS 팀즈 온라인으로 접속해 강의를 들어 보고 정리해 보았습니다.

- 주최자 : 부산과학기술대학교(산학협력단) DX아카데미

- 실습환경 : 데이터메이커 시냅스라는 데이터라벨링 온라인 실습 사이트 https://tutorial.datamaker.io/

 

수업 중 데이터라벨링에 사용되는 기본 용어부터 학습하게 됩니다.(아래)

---------------------------------------------------------------------------------------------------

@AI 머신러닝 종류 중 라벨링 데이터를 사용하는 것은 지도학습 이다.(아래)
- 지도학습 : 클래스 라벨링으로 객체를 True / False 로 판별하는데 사용.
- 비지도학습 : 라벨링 없이 속성값이 유사한 객체끼리 묶어서 판별하는 군집화(분류화)
- 자율주행 ML(Machine Learning)학습 전 데이터 검사단계
- 1-1차 : 지역 사전 조사(법제도 여부, 환경여부, 편향성 확인)
- 1-2차 : 카메라 및 라이다(RiDAR)자료 취득(LiDAR-레이저를 이용한 3D데이터를 탐지하는 방식 : 현대차,GM에서 사용. 테슬라는 고비용 때문에 사용안함.) 참고로 자주 비교되는 레이다(RaDAR)는 전파를 이용해 거리, 방향, 각도 및 속도를 탐지하는 방식이다.
- 2차 : 정제검사(개인정보보호 비식별화, 중복데이터, 저품질 여부)
- 3-1차 : 라벨링(라벨링도구로 라벨링가이드 참조해서 라벨러가 어노테이션 등록, 클래스 어노테이션에 클래스 추가)

- 3-2차: 검수도구로 검수자가 검수(일반검사 예, 객체 미검출, 오검출, 과검출, 낮은 정확도를 검수 )
- 3-2차 : 필요시 외부전문가(도메인) 검수자 (전문검사자 예, 변호사, 의사 등...)
- 3-3차 : 검사결과 : 보류, 승인, 반려
---------------------------------------------------------------------------------------------------
@데이터 셋 구축 가이드라인
- 샘플 데이터 획득(수집) 정제 라벨링 검사(v) AI학습 : 
- 적정성 확인 : 샘플 예, 객체를 6만건 이상 규모와 경기도 북부 지역 대상 
- 사건의 6하원칙(5W1H) 순서: Who, When, Where, What, Why, How(누가 언제 어디서 무엇을 왜 어떻게 범죄 사건이 일어 났는가?)
- 데이터 수집의 6하원칙(5W1H) 순서: What, When, Where, Who, How, Why(무엇을 언제 어디서 누가 어떻게 왜 수집했는가?)
- 비지니스 도메인 : 데이터획득(Raw 원시Data), 데이터정제(Source 원천Data), 데이터라벨링(라벨러+검수자, Labeled 라벨링Data), AI머신러닝(Learning 학습Data)
- ML(머신러닝)학습데이터 종류 : 트레이닝 데이터(머신러닝에 사용) 후 벨리데이션 데이터(머신리닝 처리 결과 정상여부 검사) Validation 비교 방법 T/T(참->참O), T/F(참->거짓X), F/T(거짓->참X), F/F(거짓->거짓O)
- 라벨링 목적에 맞는 데이터 획득 및 정제되었는지 확인
- 개인정보보호(가이드라인에서 확인) + 중복데이터(dedupe-lication) 여부 확인 및 객체품질에 예외사항 발생 시 보류처리
- LiDAR 데이터 : 레이저(빛)을 사용한 3D 데이터 추출(사물의 형태) - 3D라벨링분야에서 사용
- Dup Dectector(중복 데이터 정제에 사용 예, 같은 이미지 2개 일때 제거요청)
- 제약조건확인 : 인허가 + 개인정보보보 + 자연환경(날씨) + 예산
- 전수조사를 할 수 없기 때문에 샘플링 데이터가 필요하다.

---------------------------------------------------------------------------------------------------

@AI 모델링에 사용되는 데이터의 흐름(아래)
- 데이터수집(원시 Raw 데이터) => AI학습용데이터셋구축(데이터라벨러, 검수자)라벨링 Labeled 데이터 => AI Learning 학습 데이터 (머신러닝 등으로 인공지능 모델 생성)
@어노테이션 : 객체에 태깅(설명이나 주석)을 추가하는 행위

- 원천 데이터에서 라벨러가 생성한 애노테이션을 보면서 미검출, 오검출, 과검출, 낮은정확도로 검수자가 검수 후 AI학습 데이터로 넘어간다.(아래 순서)
- 데이터셋 가공 단계(원천 Source Data 생성)
1. 데이터 수집
2. 데이터 정제(중복제외, 민감개인정보여부판단-얼굴,번호판등)
- AI용 데이터 셋 생성 순서(라벨링 Labeled Data 생성)
1. 객체파악 (객체인식을 미검출)
2. 라벨링(클래스 선정확인)
3. 제출( 객체 미검출, 오검출, 과검출, 낮은 정확도를 검수 후 승인, 반려, 보류-민감정보포함 )

---------------------------------------------------------------------------------------------------

@ 복합라벨링: 여러가지 객체태깅방법을 사용하는 것

#. 복합라벨링 작업 순서(아래)

- 객체 바운딩박스 -> 키포인트설정(객체기준으로 좌우의미확인) -> 클래스 라벨링 -> 클래스 관계지정(사람에서사물로) -> 제출

#. 라벨링 후 검수자 작업 내역(아래)

- 승인(작업이 기준대로 잘 진행된 경우),

- 반려(재작업이 필요한 경우,미검출,오검출,과검출,낮은정확도) ,

- 보류(관리자와 작업 승인에 대한 논의가 필요한 경우)

---------------------------------------------------------------------------------------------------
@ 멀티모달: 여러가지 형태의 데이터(사진,음성등)를 한꺼번에 사용하는 것

#. 멀티모달인 영상 데이터 처리 : 보통 24FPS(Frame per Second) 영상을

- 구간정제(의미있는 음성 발화시작-끝) 후,

- 영상분류(기쁨, 분노, 짜증 등등)

- 사람, 사물 객체태깅(바운딩박스, 폴리라인, 폴리곤) 

 

Ps. 수료 후...

- 지금까지 몇년간 원격강의에 줌(Zoom)을 사용하였지만, 이번에 MS 팀즈를 경험해 보았다. 단, 줌 보단 카메라 영상 처리가 느린듯 합니다. 카메라 영상을 켜면, 노트북이 버벅되어, 화면처리가 빠른 줌(Zoom)과 비교 되었습니다.

- 데이터 라벨러로 취업 사이트를 검색해 보았더니, IT개발쪽과는 비교 할 수 없을 정도로 일자리가 많지는 않았습니다. 단, 앞으로 정부에서 스마트시티를 구축하는 상황이 생기고, 자율주행 자동차가 4단계인 완전자율 주행 승인이 이루어 진다면 많은 일자리가 생기리라 예상해 봅니다.

관련글 더보기

댓글 영역