Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Follow up the Finite-horizon IRL algorithm #12

Open
hnlee77 opened this issue Jan 7, 2022 · 12 comments
Open

Follow up the Finite-horizon IRL algorithm #12

hnlee77 opened this issue Jan 7, 2022 · 12 comments
Assignees

Comments

@hnlee77
Copy link
Member

hnlee77 commented Jan 7, 2022

다음 논문을 follow-up 해보려고 합니다. 읽고 함께 얘기해보실 분?

[1] J. Zhao and M. Gan, “Finite-horizon optimal control for continuous-time uncertain nonlinear systems using reinforcement learning,” Int. J. Syst. Sci., vol. 51, no. 13, pp. 2429–2440, 2020, doi: 10.1080/00207721.2020.1797223.

@JinraeKim
Copy link
Member

다음 논문을 follow-up 해보려고 합니다. 읽고 함께 얘기해보실 분?

[1] J. Zhao and M. Gan, “Finite-horizon optimal control for continuous-time uncertain nonlinear systems using reinforcement learning,” Int. J. Syst. Sci., vol. 51, no. 13, pp. 2429–2440, 2020, doi: 10.1080/00207721.2020.1797223.

혹시 해당 논문을 선정한 이유가 있을까요?
제가 이쪽을 잘 몰라서, 다른 것들도 있는지 궁금해서요

@minii93 minii93 self-assigned this Jan 7, 2022
@minii93
Copy link
Collaborator

minii93 commented Jan 7, 2022

Minii joined this issue now

@hnlee77
Copy link
Member Author

hnlee77 commented Jan 7, 2022

혹시 해당 논문을 선정한 이유가 있을까요? 제가 이쪽을 잘 몰라서, 다른 것들도 있는지 궁금해서요

Finite-horizon 쪽에서 강화학습 (ADP or IRL)을 적용한 논문들 위주로 살펴봤는데요, 제가 원하는 방향과 가장 일치했었습니다.
원하는 방향은 Infinite-horizon ADP or IRL 과 달리 시간에 의존하는 가치함수를 추정하는 방식이 적용된 ADP or IRL 알고리즘입니다.

@Youngjun-Lee-FDCL
Copy link
Collaborator

Youngjun also joined this study.

@Youngjun-Lee-FDCL Youngjun-Lee-FDCL self-assigned this Jan 10, 2022
@hnlee77
Copy link
Member Author

hnlee77 commented Jan 28, 2022

이 논문은 다음주는 설연휴이니 다다음주 월(2/7)까지 읽어보는 것 어떤가요?

@minii93
Copy link
Collaborator

minii93 commented Jan 28, 2022

이 논문은 다음주는 설연휴이니 다다음주 월(2/7)까지 읽어보는 것 어떤가요?

넹~

@hnlee77
Copy link
Member Author

hnlee77 commented Feb 7, 2022

@Youngjun-Lee-FDCL @minii93 이 논문리뷰는 괜찮다면 따로 얘기하는 것보다 여기에 답글을 달면 좋겠습니다~
다른 이슈의 질문들을 확인하면서 보니, 이슈를 통해서 하는 논의가 모두 확인할 수 있어서 좋은 것 같다는 생각이 듭니다. 어떤가요?

@minii93
Copy link
Collaborator

minii93 commented Feb 7, 2022

@Youngjun-Lee-FDCL @minii93 이 논문리뷰는 괜찮다면 따로 얘기하는 것보다 여기에 답글을 달면 좋겠습니다~
다른 이슈의 질문들을 확인하면서 보니, 이슈를 통해서 하는 논의가 모두 확인할 수 있어서 좋은 것 같다는 생각이 듭니다. 어떤가요?

그게 편하다면 그렇게 합시다~

@Youngjun-Lee-FDCL
Copy link
Collaborator

Youngjun-Lee-FDCL commented Feb 7, 2022

다음 논문을 follow-up 해보려고 합니다. 읽고 함께 얘기해보실 분?

[1] J. Zhao and M. Gan, “Finite-horizon optimal control for continuous-time uncertain nonlinear systems using reinforcement learning,” Int. J. Syst. Sci., vol. 51, no. 13, pp. 2429–2440, 2020, doi: 10.1080/00207721.2020.1797223.

알겠습니다~

@hnlee77
Copy link
Member Author

hnlee77 commented Feb 7, 2022

그럼 여기에 질문들을 마구 올려주시면 되겠어요~

@minii93
Copy link
Collaborator

minii93 commented Feb 7, 2022

내용적으로 어려운 것은 없었어요.
다만 수치 시뮬레이션 결과를 보면, final state를 원점으로 보내는 형태의 비용함수를 사용했음에도 state가 원점으로 수렴하지 않는 것 같은데 저만 이상해보이는 걸까요?

@hnlee77
Copy link
Member Author

hnlee77 commented Feb 8, 2022

내용적으로 어려운 것은 없었어요. 다만 수치 시뮬레이션 결과를 보면, final state를 원점으로 보내는 형태의 비용함수를 사용했음에도 state가 원점으로 수렴하지 않는 것 같은데 저만 이상해보이는 걸까요?

저도 동일한 부분에 대해서 조금 이해가 가질 않는데요.. 파라미터(그림2, 5)를 보면 범위가 굉장히 커서 수렴을 한 것인지 잘 모르겠습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants