'Exploitation' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록Exploitation (1)

이끼의 생각

8. [머신러닝] 강화학습과 이용, 탐험, 마르코프 결정 프로세스

강화 학습(Reinforcement Learning) 위의 두 문제의 분류는 지도의 여부에 따른 것이었는데, 강화학습은 조금 다릅니다. 지도 학습과 비지도 학습이 학습 데이터가 주어진 상태에서 환경에 변화가 없는 정적인 환경에서 학습을 진행했다면, 강화 학습은 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태(state)를 관찰하여 선택할 수 있는 행동(action)들 중에서 가장 최대의 보상(reward)을 가져다주는지 행동이 무엇인지를 학습하는 것입니다. 즉, 현재의 상태(State)에서 어떤 행동(Action)을 취하는 것이 최적인지를 학습하는 것입니다. 강화 학습은 주체(agent)가 환경으로부터 보상을 받음으로써 학습하기 때문에 지도 학습과 유사해 보이지만, 사람으로부터 학습을 받는 것이..

인공지능 이론/쉽게 읽는 인공지능과 머신러닝, 딥러닝 이론 2019. 5. 21. 22:13

Prev 1 Next

목록Exploitation (1)

이끼의 생각

티스토리툴바