본문 바로가기
SW 교육/스크래치 3.0 엔트리

[AI] 핵심 속성, 클래스 속성 , 레이블이 무엇일까?

by 팡귄 2022. 5. 1.

오늘의 주제 :

엔트리의 인공지능 블록 꾸러미 중 [분류-숫자]모델을 이용할때 등장하는

핵심 속성 / 클래스 속성의 의미 알아보기

 

- 레이블(lable)과 클래스(class)는 어떻게 다른가요?

- 엔트리 인공지능 모델 만들 때 핵심 속성과 클래스 속성이 뭔가요?

- 분류:숫자 모델은 왜 지도학습인가요?

 

요즘 외힙에 빠져서 팡귄을 새롭게 그려봄.

요즘 유튜브 외힙 모음에 빠져 있다. 이글을 읽으러온 분도 한번 외국힙합 모음을 들으며 자신감을 채우며 행복한 봄날을 만끽해보길바라며 썸네일을 그려보았다. 

 

들어가기 전에

 현재 네이버 커넥트재단이 운영하는 인공지능 편향성 수업을 준비하여 진행하고 있다. 수업자료를 수정하면서 찾은 내용들이므로 혹시 관심이 생긴다면 아래 자료도 살펴보길! 수업자료와 수업후기도 올릴 예정.

 

인공지능&데이터 : 인공지능의 편향성

인공지능은 어떻게 편견을 가지게 될까요?

www.playsw.or.kr

 

 

 

핵심 속성 ? 클래스 속성 ? 무슨 의미인가?

아래 엔트리에서 모델 학습 화면에서 각 속성의 위치와 화살표만 보더라도 충분히 추리는 가능하다.

 

핵심 속성 3가지를 바탕으로 > 클래스 속성이 결정하는 모양이다. 

(핵심 속성은 엔트리에서는 최대 3개까지 고를 수 있다. 1개, 2개만 골라도 학습은 가능하다.)

 

그렇다면, 핵심속성은 분류 결과에 중요한 판단 근거가 되는 속성들이고, 클래스 속성은 결과라는 추리가 가능하다.

원본 데이터를 불러와서 살펴보면서 확인해보자.

 

 데이터는 이렇게 생겼다

실제 데이터 파일인 엑셀에는 아래 같은 색상 구분은 없지만 이해를 위해 색상을 추가했다.

학급회장_데이터.xlsx
0.01MB

학급회장 데이터에는 학생들이 가진 특성(용돈, 성실성,..등)과 당선 여부가 들어있다.

이 엑셀데이터는 네이버 소프트웨어야놀자 공식사이트의 자료를 수정하여 만들었다.

(왜 수정하였나 하면, 엔트리가 한번 업데이트 되면서 기존 자료로는 알맞지 않은 모델이 만들어지기 때문이다. 이후 포스팅에서 더 이야기하겠음)

 

여러 개의 열(세로 줄, column)에는 각각 어떤 특성을 담았는지 나와있다. 

한달 용돈, 봉사활동, 운동 실력, 성실성, 칭찬 스티커

가장 왼쪽의 인덱스(순서대로 붙은 숫자들)를 보면 현재 6개의 샘플을 확인할 수 있음을 알 수 있다. 엑셀을 열어보면 총 40개의 샘플이 들어있을 것이다.

핵심 속성

여기에서 한 달 용돈, 봉사활동, 운동 실력, 성실성, 칭찬 스티커는 특징과 속성을 나타내는 값을 담고 있다.

특성, 속성은 feature, attribute 또는 통계에서는 독립변수라는 용어로도 자주 만날 수 있다. 이것들은 우리가 분류를 위해고려할 데이터들이 된다.

이중에서 우리가 만들고자하는 인공지능 모델이 분류할때 중요한 속성을 3가지 골라보자.

회장이 되는데에는 성실성, 봉사활동, 칭찬스티커가 고려되어야지 않을까?

이때 고른 3가지 특성이 핵심속성에 들어가는 것이다.

클래스 속성

그리고 뒤 분류결과 열에는 당선인 경우 1, 당선되지 않은 경우 0이라는 값이 들어있다. 이렇게 분류하고자 하는 결과 값  '레이블(lable)'이 들어있다.

 

보통 레이블(lable)과 클래스(class)를 혼용하기도 한다. 그러나 같은 것은 아니다.

레이블(lable) : 어떤 데이터의 분류된 정답이다.   

(예) 첫번째 샘플의 레이블은 1(당선됨)이 된다.

 

클래스 : 위 레이블들의 모임

(예) 회장선출모델에는 1, 0이라는 2가지 클래스가 있다.

 

그래서

엔트리의 클래스 속성에는 '당선'이라는 분류 레이블들이 들어있는 열을 넣어주게 된다.

 

자, 이제 정리해보자!

데이터를 핵심속성과 레이블을 같이 학습시키면, 인공지능은 열심히 학습을 한 뒤!

*이 모델은 정답을 묶어서 같이 학습시키는 지도학습이다.

분류된 적이 없는 (다시말해, 레이블이 아직 없는)

새로운 핵심 속성 값을 넣었을 때, 2가지 클래스 중 하나로 분류해준다는 것이다.

 

 

조금 더 깊이 알아야 겠다면,

 

아래 키워드를 추천!

K-NN 알고리즘 (토마토 과일 분류 예제를 찾아보면 가장 좋았음! 혹은 붓꽃)

이진 분류 (binary classification)

감사합니다!

반응형