본문 바로가기

전체 글

(6)
[Fast-Up Report] NLP - Dialogue Summarization UpstageAI 부트캠프 경진대회 개인 회고록 * 학습목표를 달성하기 위해 어떤 방법들을 시도해 보았는가? ■ 대회 학습목표 2~60회 사이로 서로 주고 받는 12000+ 개의 일상 대화문을 요약하여 499개의 test 데이터 세트 대화문을 요약하는 NLP 텍스트 summarization 문제이다. 자연어 처리와 자연어 이해 기술이 동시에 접목되어야 하며, 최대 7명까지 복수의 화자들이 존재하기 때문에 난이도가 올라갔다. 평가는 다른 관점에서 작성된 3개의 평가문에 대한 ROUGE 점수의 평균으로 채점한다. ■ 데이터 가공/보완을 통한 접근방식 Easy Data Augmentation 기법을 이용해 유의어 교체, 임의 단어 삽입, 삭제, 위치 변경과 같은 방법으로 더미 텍스트 데이터를 더 많이 생성할 ..
[Fast-Up Report] CV - Document Type Classification UpstageAI 부트캠프 경진대회 개인 회고록 * 학습목표를 달성하기 위해 어떤 방법들을 시도해 보았는가? ■ 대회 학습목표 16종류의 타입으로 태깅되어 있는 1570개의 문서 이미지를 CNN으로 학습하여 테스트 데이터 세트에서 주어지는 이미지에 적합한 문서 타입을 부여하는 딥러닝 classification 문제이다. ■ 데이터 가공/보완을 통한 접근방식 예측해야 하는 클래스는 16종류인데 트레이닝 데이터 이미지는 1000개+ 수준이므로 다양한 이미지 처리 기법을 이용해 트레이닝 데이터 샘플의 수를 증폭시켜야 했다. 데이터 augmentation 방식에는 gamma를 바꾸거나 이미지를 rotate, 반전, 흑백전환, 노이즈 추가 등등 다양한 방식으로 variation을 주어야 과적합을 방지할 수 있다...
[Fast-Up Report] ML - House Price Prediction UpstageAI 부트캠프 경진대회 개인 회고록 * 학습목표를 달성하기 위해 어떤 방법들을 시도해 보았는가? ■ 대회 학습목표 51개의 feature와 100만+ 개의 샘플을 가진 서울 아파트 거래 데이터를 바탕으로 ML/DL 모델을 학습 시켜서 테스트 세트에서 주어진 임의의 아파트 샘플에 대해 아파트 가격을 예측하는 문제이다. 정형 데이터를 사용하며, 연속적인 실수 값을 예측해야 하므로 머신러닝 Regression 타입 문제에 속한다. ■ 데이터 가공/보완을 통한 접근방식 결측치를 포함한 feature의 경우 imputation을 통한 보간하거나 예측결과 개선에 기여하지 않는 feature를 아예 dropout 시키는 방식도 고려. 일별로 나누어져 있는 float 값 데이터를 월별 / 분기별 카테고리 ..
딥러닝 스터디 그룹 회고 1차 집중 그룹 스터디 리뷰 기간 : 2023.12.18 ~ 2024.01.02 스터디 주제 그룹 목표: 업스테이지 AI와 패스트캠퍼스 콜라보로 제작한 강의 및 원서 독서 스터디. 개인 목표: 딥러닝 네트워크의 개별 구성요소 단위 이해 및 코드로 구현 실습. 그룹 스터디 내용 Backpropagation 과정 이론적 토대 심화 분석. GAN Pytorch로 구현. CLIP (Contrastive Language-Image Pre-training model) 최신 딥러닝 모델 세미나. 이미지와 이미지에 대한 설명 text를 동시에 encoding 하는 방식이다. Zero-Shot Learning, 최소한의 이미지 데이터로도 모델의 강건성 및 일반화에서 훌륭한 성과를 보여줄 수 있다. 개인 스터디 내용 딥-..
딥러닝 기초: MLP 개념과 구현 딥러닝 모델은 인풋, 히든, 아웃풋 레이어, 활성함수, 손실함수, 최적화 알고리즘 등등 복수의 구성요소로 이루어져 있으며, 모델을 학습하고 최적화 하기 위해서는 개별 구성요소들을 각자 구현하고 마지막에 연결해서 단일한 시스템처럼 운영해야 한다. PyTorch 라이브러리를 사용하면 간단한 코드로 미리 만들어져 있는 템플릿을 자동으로 사용할 수 있지만 딥러닝 기초 개념을 이해하기 위해서는 개별 구성요소들을 직접 다룰 줄 알아야 한다. 딥러닝 모델의 구성요소들: 인풋 레이어 n개의 히든 레이어 아웃풋 레이어 활성화 함수 (activation function) 목적 / 손실 함수 (objective / loss function) 최적화 알고리즘 (optimizer) 활성화 함수 활성화 함수를 통해 이전 레이어의..
Dive Into Deep Learning Introduction 머신러닝 / 딥러닝 분야는 지난 10년 동안 0~9 숫자 분류 같은 단순한 작업에서 시작해 DALL·E, ChatGPT 등 일견 인간의 창의력을 모방하는 수준에 이르러 눈부신 발전 속도를 보여주었지만, 이를 배우는 입장에서 기술 발전 트렌드의 빠른 변화와, 개발언어를 사용해 새로 나온 딥러닝 개념을 실제 코드로 구현하는 technicality 한 부분을 균형 있게 담고 있는 교보재를 찾기 어려웠다. 그런 점에서 이 책은 머신러닝 초보자라도 기초개념부터 시작해 상당히 구체적이고 심도 있는 개념을 실제로 적용하기까지 험난한 과정을 훨씬 쉽고 안전하게 바꾼 점에서 의의가 있다. 머신러닝 문제의 종류 지도학습 (Supervised Learning) 비지도 / 자가 학습 (Unsupervi..