Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- IOS
- Artificial Intelligence
- 템플릿
- 빅데이터
- swift
- APP
- python
- view
- AI
- Android
- swift toast message
- Django
- 파이썬
- 디자인패턴
- toast
- Pycharm
- Toast Message
- Machine Learning
- 딥러닝
- 시각화
- 기계학습
- Deep learning
- model
- 모델
- 머신러닝
- 앱
- ios toast message
- 인공지능
- BigData
- 장고
Archives
- Today
- Total
목록Exploitation (1)
이끼의 생각
8. [머신러닝] 강화학습과 이용, 탐험, 마르코프 결정 프로세스
강화 학습(Reinforcement Learning) 위의 두 문제의 분류는 지도의 여부에 따른 것이었는데, 강화학습은 조금 다릅니다. 지도 학습과 비지도 학습이 학습 데이터가 주어진 상태에서 환경에 변화가 없는 정적인 환경에서 학습을 진행했다면, 강화 학습은 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태(state)를 관찰하여 선택할 수 있는 행동(action)들 중에서 가장 최대의 보상(reward)을 가져다주는지 행동이 무엇인지를 학습하는 것입니다. 즉, 현재의 상태(State)에서 어떤 행동(Action)을 취하는 것이 최적인지를 학습하는 것입니다. 강화 학습은 주체(agent)가 환경으로부터 보상을 받음으로써 학습하기 때문에 지도 학습과 유사해 보이지만, 사람으로부터 학습을 받는 것이..
인공지능 이론/쉽게 읽는 인공지능과 머신러닝, 딥러닝 이론
2019. 5. 21. 22:13