데이터
-
[Python]Splitfloders 한줄로 Train/Test/Validation 나누기programming/Python 2021. 11. 15. 23:24
딥러닝이나 머신러닝에서는 Dataset을 분할하는 것은 필수적입니다. 보통은 딥러닝 또는 머신러닝 프레임워크에 데이터셋을 분할하는 함수나 클래스가 있지만 불가피하게 수작업으로 분할해야 할 때가 있습니다. 그럴 때는 보통 glob, os, shutil, re 등의 라이브러리를 사용해 분할을 하지만 이것 또한 귀찮을 때가 있습니다... 그럴 때 사용하는 라이브러리를 소개할까 합니다!..(저도 귀찮아서 검색하다가 찾았습니다!) Train/Test/Validation Train set : 모델이 학습하는데 사용 되는 훈련용 데이터입니다. Test set : 학습 후에 모델의 성능을 평가하기 위해서만 사용되는 테스트용 데이터입니다. (수능 데이터!) Validation set : 모델의 일반화 능력을 높이기 위해..
-
[Data Science] 공공데이터 사이트 모음(국내 사이트, 해외 사이트)Data Science 2021. 1. 7. 17:07
빅데이터 시대에서 데이터는 하나의 중요한 자산이 되었습니다. 데이터를 파는 회사도 생겨나고 데이터를 구입해 분석한 결과를 판매하는 회사도 생겨나고 있습니다. 데이터를 개인이 직접 수집하고 데이터셋을 만드는 것은 쉽지 않습니다. 그래서 오늘은 데이터를 공유하는 알려드릴까 합니다. 국내 사이트 1.서울열린데이터광장 https://data.seoul.go.kr/ 서울 열린데이터광장 모든 서울시민을 위한 공공데이터 열린데이터광장에서 서울시와 연계 기관이 공개한 공공데이터를 확인하실 수 있습니다. 서울시와 관련된 다양한 공공데이터를 확인해 보세요. data.seoul.go.kr 2.공공데이터포털 https://www.data.go.kr 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 ..