앞 파트도 꼭 나중에 블로그에 옮겨놓겠다!
14주차 : 데이터 전처리의 이해
데이터 전처리를 위한 여러가지 코드를 배우고 있는데, 결측치 제거 부터 ( )부분 날리는 것,
응답데이터의 그리고 글자수를 통해 어느정도 글자수가 충족될때 유의미한 데이터일지를 고려하여
데이터를 추린다는 것까지 너무 재미있었다. 이걸 왜 14주차에 되서야 배웠나 아쉬울 정도. 15주차가 종강인데..
프로젝트 과제할 때 이 파트를 미리 알았더라면 정말 좋았겠다 싶다. csv파일 내에서도 고치는 방법이 있다지만,
코드 몇줄로 데이터를 추리고, 다시 그 데이터를 살펴보고 의미를 찾는 재미가 적성에 맞는 모양이다.
이파트가 아마도 종강하고 나서 가장 빨리 복습하러 올 파트 같다.
#자연어 처리
참고 도서 : 밑바닥부터 시작하는 딥러닝 2: 파이썬으로 직접 구현하며 배우는 순환 신경망과 자연어 처리
EOS 란?
for문 안에 i == 'EOS' or
이거 적으시는데 교수님이 문장의 끝이거나~ 이러셔서 약간 감은 왔으나
찾아보니 eos치면 왠 가상화폐만 엄청 나온다ㅎㅎㅎㅎ.
다행이 밑바닥부터 시작하는 딥러닝2라는 책 107쪽에
설명이 나온다. 예상했듯이 end of sentence의 약어.
* BOS = beginning of sentence 문장의 시작
*UNK 는 unknown의 약어로 희소한 단어는 특수문자로 치환해버릴 때
# 과제 중 링크드 리스트 만드는 중에
numpy.zeros() : 0으로 가득찬 array 생성
np.zeros(shape, dtype=float, order='c')
필수 입력 파라미터는 shape 뿐. 나머지는 디폴트 값이 있다.
shape = 규격 입력
(예시)
5칸 짜리 배열이 생성된다.
import numpy as np
a = np.zeros(5)
print(a)
np.zeros((5,3)) 튜플형태로도 입력 가능
np.zeros((3,3,2)) 가능 ㅎㅎㅎ한번 심심해서 아래처럼 여러 가지 시도를 해보았다.
꿀팁!!!!
팀원분이 워낙 능력자셔서. 배우는 게 많았는데, 이안에 아예 len으로 값을 넣어버리셨었다.
np.zeros((len(station), len(station)))
이렇게 len으로 불러와도 가능하기에!!! 값을 프로그램 실행 상황에 따라 다르게 넣을 수 있다는 점!!!
dtype = 데이터 타입
float(실수) 가 디폴트지만, 0은 정수일수도 있으므로, float가 아닌 int를 넣어도 됨,
이때, int를 설정하면 소수점을 버리고, 반올림, 올림을 사용할 수 있으므로, 처음에 이
array를 어떻게 쓸 것인지에 따라서 정하면 좋을 듯하다.
order = 메모리에 저장하는 순서
다차원데이터를 행(row-major C 스타일) , 열 (column-major Fortran 스타일) 순서로 메모리에 저장할 지 여부인데,
출력했을때는 차이가 없음. 대부분 디폴트(C)로 두더라.
iterrows
: enumerate랑 비슷하게 각각의 행의 인덱스를 값과 함께 뽑아줌.
참고한 블로그!
https://3months.tistory.com/419
https://blog.naver.com/wideeyed/221869541483
보너스
numpy.ones()
: 1로 가득찬 array 생성
참고 웹페이지
https://aigong.tistory.com/62 역시 한국어 설명이 최고다
https://thispointer.com/np-zeros-create-numpy-arrays-of-zeros-0s/ 어느정도 알아들을 수 있음
https://firework-ham.tistory.com/33
차근차근!
'AI , 컴퓨터 , 대학원 > 딥러닝 공부' 카테고리의 다른 글
[용어] 초보자를 위한 머신러닝 용어 _ 특성, 인스턴스(instance) 등 (0) | 2023.02.19 |
---|---|
KNN (K-최근접 알고리즘) 시각화 학습 사이트 (0) | 2021.03.13 |
파이썬으로 배우는 알고리즘 트레이딩 (0) | 2021.02.15 |