강화학습을 공부하게 된 계기는 선배와의 협업을 통해 본의 아니게 시작하게 되었다기본적인 머신러닝이나 신경망에 대해서도 제대로 알지 못한 채 강화학습의 세계에 뛰어들어 허우적거리다 보니, 이제는 정리가 필요하다고 느낀다. 차량이나 선박과 같이 Markov Decision Process(MDP)로 구성 가능한 경우, 강화학습을 사용하는 것이 적합하다는 사실은 알고 있다. 하지만 논문을 읽다 보면, 최적화를 위해서 혹은 방법론의 하나로 강화학습이 자주 사용되는 것을 볼 수 있다. 흥미로운 점은, 많은 논문들이 MDP로 표현하기 어려운 상황에서도 강화학습을 사용한다는 것이다. 그것이 반드시 최적화 문제를 풀기 위한 해법이 아님에도 불구하고, 방법론으로 제시되고 또 accept이 많이 되고 있으니, 괜히 RL을 ..