원자력 발전소 상태 판단 알고리즘 공모전 도전 5일차!(마지막날) 포스팅 썸네일 이미지

경진대회, 공모전/DACON 원자력발전소 상태 판단 알고리즘 경진대회

원자력 발전소 상태 판단 알고리즘 공모전 도전 5일차!(마지막날)

[산업] 원자력발전소 상태 판단 대회 출처 : DACON - Data Science Competition dacon.io 먼저 lightGBM 모델을 사용하였습니다. from lightgbm import LGBMClassifier, plot_importance lgb2 = LGBMClassifier(n_estimators=2, learning_rate=0.001, max_depth=7,min_child_samples=48, random_state=4321) lgb2.fit(X_train, y_train, verbose=2) 결과는! 이번에는 GridSearchCV를 활용하여 RandomForest의 최적의 파라미터를 찾아보았습니다. 머신러닝 bagging 앙상블 랜덤 포레스트(random forest)란..

2020.02.12 게시됨

원자력 발전소 상태 판단 알고리즘 공모전 도전 3,4일차! 포스팅 썸네일 이미지

경진대회, 공모전/DACON 원자력발전소 상태 판단 알고리즘 경진대회

원자력 발전소 상태 판단 알고리즘 공모전 도전 3,4일차!

[산업] 원자력발전소 상태 판단 대회 출처 : DACON - Data Science Competition dacon.io 그동안 Dev-Matching, Naver AI Burning DAY를 도전하느라 도전 1, 2일차에서 시간이 많이 지났지만 아직 종료일인 12일까지는 시간이 남아 다시 도전을 시작했습니다. 이번에는 Gradient Boosing 중 하나인 LightGBM을 사용해보기로 했습니다. 해당 과정은 Google Colab GPU 환경에서 실시했습니다. 먼저 LightGBM을 사용하기 위해서 Colab환경에 설치를 하였습니다. 해당과정은 아래 링크에서 볼 수 있습니다. [Ensemble] Colab에서 LightGBM 사용하기! 원자력 발전소 상태판단 알고리즘을 도전해보면서 머신러닝을 공부하..

2020.02.09 게시됨

원자력 발전소 상태 판단 알고리즘 공모전 도전 1, 2일차! 포스팅 썸네일 이미지

경진대회, 공모전/DACON 원자력발전소 상태 판단 알고리즘 경진대회

원자력 발전소 상태 판단 알고리즘 공모전 도전 1, 2일차!

[산업] 원자력발전소 상태 판단 대회 출처 : DACON - Data Science Competition dacon.io 다음의 과정은 Google Drive에 데이터를 저장하고 Colab - TPU 환경에서 진행하였습니다. 이 공모전은 원자력 발전소의 5,121개의 변수를 가지고 각각의 label (상태 0~197)에 해당하는 예측확률을 0~1사이의 값으로 제출하는 공모전입니다. 첫번째 시도는 대회를 이해해보기 위해서 DACON에서 제공하는 baseline 코드를 실행해보았습니다. 앞서 데이터 불러오기에서 볼 수 있었던 코드에서 ver2 코드를 활용하여 다운 받은 csv 데이터를 코드에서 load하고 학습데이터 라벨링과 테스트 데이터를 만들어 활용하였습니다. import os import pandas ..

2020.01.26 게시됨

제공 데이터 이해하고 학습데이터/테스트 데이터 load 해보기! 포스팅 썸네일 이미지

경진대회, 공모전/DACON 원자력발전소 상태 판단 알고리즘 경진대회

제공 데이터 이해하고 학습데이터/테스트 데이터 load 해보기!

라벨링은 어떻게 해야할까? train.zip : 각각의 csv파일은 feature에 대한 내용만 저장되어있음. train_label.csv : 각각의 csv파일에 대한 label 값은 train_label.csv에 저장되어있음. 참가자가 직접 라벨링을 해주어야함. train_label.csv파일 내에 각각의 csv파일별로 부여가되는 라벨에 대한 정보가 저장되어있습니다. 즉 만약 1번 csv파일의 라벨값이 29번이라면 29번을 target column에 추가를 해주면 됩니다. 하지만 train_label.csv 내에 있는 라벨 정보는 각각의 파일별 상태 B에 대한 정보를 나타냅니다. 모든 데이터는 상태 A에서 시작하기 때문에 상태 A부분을 반영해주어야합니다. 상태 A에서 발전소가 운영을 시작하다가 중간에 ..

2020.01.23 게시됨