지난 2024.01.22(월)~26(금) 까지 5일간 [자율주행 AI-Crew 양성과정] 을 MS 팀즈 온라인으로 접속해 강의를 들어 보고 정리해 보았습니다.
- 주최자 : 부산과학기술대학교(산학협력단) DX아카데미
- 실습환경 : 데이터메이커 시냅스라는 데이터라벨링 온라인 실습 사이트 https://tutorial.datamaker.io/
수업 중 데이터라벨링에 사용되는 기본 용어부터 학습하게 됩니다.(아래)
---------------------------------------------------------------------------------------------------
@AI 머신러닝 종류 중 라벨링 데이터를 사용하는 것은 지도학습 이다.(아래)
- 지도학습 : 클래스 라벨링으로 객체를 True / False 로 판별하는데 사용.
- 비지도학습 : 라벨링 없이 속성값이 유사한 객체끼리 묶어서 판별하는 군집화(분류화)
- 자율주행 ML(Machine Learning)학습 전 데이터 검사단계
- 1-1차 : 지역 사전 조사(법제도 여부, 환경여부, 편향성 확인)
- 1-2차 : 카메라 및 라이다(RiDAR)자료 취득(LiDAR-레이저를 이용한 3D데이터를 탐지하는 방식 : 현대차,GM에서 사용. 테슬라는 고비용 때문에 사용안함.) 참고로 자주 비교되는 레이다(RaDAR)는 전파를 이용해 거리, 방향, 각도 및 속도를 탐지하는 방식이다.
- 2차 : 정제검사(개인정보보호 비식별화, 중복데이터, 저품질 여부)
- 3-1차 : 라벨링(라벨링도구로 라벨링가이드 참조해서 라벨러가 어노테이션 등록, 클래스 어노테이션에 클래스 추가)
- 3-2차: 검수도구로 검수자가 검수(일반검사 예, 객체 미검출, 오검출, 과검출, 낮은 정확도를 검수 )
- 3-2차 : 필요시 외부전문가(도메인) 검수자 (전문검사자 예, 변호사, 의사 등...)
- 3-3차 : 검사결과 : 보류, 승인, 반려
---------------------------------------------------------------------------------------------------
@데이터 셋 구축 가이드라인
- 샘플 데이터 획득(수집) 정제 라벨링 검사(v) AI학습 :
- 적정성 확인 : 샘플 예, 객체를 6만건 이상 규모와 경기도 북부 지역 대상
- 사건의 6하원칙(5W1H) 순서: Who, When, Where, What, Why, How(누가 언제 어디서 무엇을 왜 어떻게 범죄 사건이 일어 났는가?)
- 데이터 수집의 6하원칙(5W1H) 순서: What, When, Where, Who, How, Why(무엇을 언제 어디서 누가 어떻게 왜 수집했는가?)
- 비지니스 도메인 : 데이터획득(Raw 원시Data), 데이터정제(Source 원천Data), 데이터라벨링(라벨러+검수자, Labeled 라벨링Data), AI머신러닝(Learning 학습Data)
- ML(머신러닝)학습데이터 종류 : 트레이닝 데이터(머신러닝에 사용) 후 벨리데이션 데이터(머신리닝 처리 결과 정상여부 검사) Validation 비교 방법 T/T(참->참O), T/F(참->거짓X), F/T(거짓->참X), F/F(거짓->거짓O)
- 라벨링 목적에 맞는 데이터 획득 및 정제되었는지 확인
- 개인정보보호(가이드라인에서 확인) + 중복데이터(dedupe-lication) 여부 확인 및 객체품질에 예외사항 발생 시 보류처리
- LiDAR 데이터 : 레이저(빛)을 사용한 3D 데이터 추출(사물의 형태) - 3D라벨링분야에서 사용
- Dup Dectector(중복 데이터 정제에 사용 예, 같은 이미지 2개 일때 제거요청)
- 제약조건확인 : 인허가 + 개인정보보보 + 자연환경(날씨) + 예산
- 전수조사를 할 수 없기 때문에 샘플링 데이터가 필요하다.
---------------------------------------------------------------------------------------------------
@AI 모델링에 사용되는 데이터의 흐름(아래)
- 데이터수집(원시 Raw 데이터) => AI학습용데이터셋구축(데이터라벨러, 검수자)라벨링 Labeled 데이터 => AI Learning 학습 데이터 (머신러닝 등으로 인공지능 모델 생성)
@어노테이션 : 객체에 태깅(설명이나 주석)을 추가하는 행위
- 원천 데이터에서 라벨러가 생성한 애노테이션을 보면서 미검출, 오검출, 과검출, 낮은정확도로 검수자가 검수 후 AI학습 데이터로 넘어간다.(아래 순서)
- 데이터셋 가공 단계(원천 Source Data 생성)
1. 데이터 수집
2. 데이터 정제(중복제외, 민감개인정보여부판단-얼굴,번호판등)
- AI용 데이터 셋 생성 순서(라벨링 Labeled Data 생성)
1. 객체파악 (객체인식을 미검출)
2. 라벨링(클래스 선정확인)
3. 제출( 객체 미검출, 오검출, 과검출, 낮은 정확도를 검수 후 승인, 반려, 보류-민감정보포함 )
---------------------------------------------------------------------------------------------------
@ 복합라벨링: 여러가지 객체태깅방법을 사용하는 것
#. 복합라벨링 작업 순서(아래)
- 객체 바운딩박스 -> 키포인트설정(객체기준으로 좌우의미확인) -> 클래스 라벨링 -> 클래스 관계지정(사람에서사물로) -> 제출
#. 라벨링 후 검수자 작업 내역(아래)
- 승인(작업이 기준대로 잘 진행된 경우),
- 반려(재작업이 필요한 경우,미검출,오검출,과검출,낮은정확도) ,
- 보류(관리자와 작업 승인에 대한 논의가 필요한 경우)
---------------------------------------------------------------------------------------------------
@ 멀티모달: 여러가지 형태의 데이터(사진,음성등)를 한꺼번에 사용하는 것
#. 멀티모달인 영상 데이터 처리 : 보통 24FPS(Frame per Second) 영상을
- 구간정제(의미있는 음성 발화시작-끝) 후,
- 영상분류(기쁨, 분노, 짜증 등등)
- 사람, 사물 객체태깅(바운딩박스, 폴리라인, 폴리곤)
Ps. 수료 후...
- 지금까지 몇년간 원격강의에 줌(Zoom)을 사용하였지만, 이번에 MS 팀즈를 경험해 보았다. 단, 줌 보단 카메라 영상 처리가 느린듯 합니다. 카메라 영상을 켜면, 노트북이 버벅되어, 화면처리가 빠른 줌(Zoom)과 비교 되었습니다.
- 데이터 라벨러로 취업 사이트를 검색해 보았더니, IT개발쪽과는 비교 할 수 없을 정도로 일자리가 많지는 않았습니다. 단, 앞으로 정부에서 스마트시티를 구축하는 상황이 생기고, 자율주행 자동차가 4단계인 완전자율 주행 승인이 이루어 진다면 많은 일자리가 생기리라 예상해 봅니다.
AI 소프트웨어 API 사용하여 이미지 인식 기술 구현하기2 (0) | 2024.06.02 |
---|---|
AI 소프트웨어 API 사용하여 이미지 인식 기술 구현하기1 (0) | 2024.05.20 |
코딩 테스트 풀이를 개발자(사람)과 ChatGPT 인공지능으로 비교해 보았습니다. (0) | 2023.02.04 |
IoT 정보를 머신러닝으로 데이터 분석_오렌지3와ThingPost (0) | 2021.11.30 |
IoT 정보를 머신러닝으로 데이터 분석_오랜지3비지도학습2 (0) | 2021.11.25 |
댓글 영역