Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Pycharm
- toast
- Toast Message
- swift toast message
- AI
- model
- ios toast message
- IOS
- 디자인패턴
- Artificial Intelligence
- swift
- 장고
- python
- 인공지능
- Django
- 파이썬
- Machine Learning
- 빅데이터
- 딥러닝
- 머신러닝
- BigData
- Deep learning
- APP
- view
- 기계학습
- Android
- 템플릿
- 시각화
- 앱
- 모델
Archives
- Today
- Total
목록정책 반복법 (1)
이끼의 생각
8. [머신러닝] 강화학습과 이용, 탐험, 마르코프 결정 프로세스
강화 학습(Reinforcement Learning) 위의 두 문제의 분류는 지도의 여부에 따른 것이었는데, 강화학습은 조금 다릅니다. 지도 학습과 비지도 학습이 학습 데이터가 주어진 상태에서 환경에 변화가 없는 정적인 환경에서 학습을 진행했다면, 강화 학습은 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태(state)를 관찰하여 선택할 수 있는 행동(action)들 중에서 가장 최대의 보상(reward)을 가져다주는지 행동이 무엇인지를 학습하는 것입니다. 즉, 현재의 상태(State)에서 어떤 행동(Action)을 취하는 것이 최적인지를 학습하는 것입니다. 강화 학습은 주체(agent)가 환경으로부터 보상을 받음으로써 학습하기 때문에 지도 학습과 유사해 보이지만, 사람으로부터 학습을 받는 것이..
인공지능 이론/쉽게 읽는 인공지능과 머신러닝, 딥러닝 이론
2019. 5. 21. 22:13