01 Cartpole environment
CartPole ȯ°æÀº OpenAIÀÇ Gym ¶óÀ̺귯¸®¿¡¼ Á¦°øÇÏ´Â °íÀüÀûÀÎ °ÈÇнÀ ¹®Á¦ Áß ÇϳªÀÌ´Ù. ÀÌ È¯°æÀº ¼öÁ÷À¸·Î ¼¼¿î ¸·´ë±â¸¦ ±ÕÇü Àâ°í ÀÖ´Â »óÅ¿¡¼ ijƮ(carts)°¡ Á¿ì·Î À̵¿ÇÒ ¼ö ÀÖµµ·Ï ¼³°èµÇ¾î ÀÖ´Ù. ¸ñÇ¥´Â ¸·´ë±â°¡ ³Ñ¾îÁöÁö ¾Êµµ·Ï Áö¼ÓÀûÀ¸·Î ±ÕÇüÀ» À¯ÁöÇÏ´Â °ÍÀÌ´Ù. ÀÌ ¹®Á¦´Â °ÈÇнÀ¿¡¼ Æú¸®½Ã ±â¹Ý(policy-based) ¶Ç´Â °¡Ä¡ ±â¹Ý(value-based) ¾Ë°í¸®ÁòÀ» Å×½ºÆ®ÇÏ°í Æò°¡Çϱâ À§ÇÑ ÁÁÀº º¥Ä¡¸¶Å©·Î ³Î¸® »ç¿ëµÈ´Ù. CartPole ȯ°æÀº ³× °¡ÁöÀÇ ÁÖ¿ä »óÅ º¯¼ö·Î ±¸¼ºµÈ´Ù. ù ¹ø° º¯¼ö´Â ¸·´ë±âÀÇ °¢µµÀÌ´Ù. ¸·´ë±â°¡ ¼öÁ÷ À§Ä¡¿¡¼ ¾ó¸¶³ª ±â¿ï¾îÁ® ÀÖ´ÂÁö¸¦ ³ªÅ¸³»¸ç, ±â¿ï±â°¡ Ŭ¼ö·Ï ±ÕÇüÀ» ÀÒÀ» À§ÇèÀÌ Ä¿Áø´Ù. µÎ ¹ø° º¯¼ö´Â ¸·´ë±âÀÇ °¢¼ÓµµÀÌ´Ù. ÀÌ°ÍÀº ¸·´ë±â°¡ ȸÀüÇÏ´Â ¼Óµµ¸¦ ³ªÅ¸³»¸ç, ÀÌ °ªÀÌ Å¬¼ö·Ï ¸·´ë±âÀÇ ±ÕÇüÀ» ¸ÂÃ߱⠾î·Á¿öÁø´Ù. ¼¼ ¹ø° º¯¼ö´Â ijƮÀÇ À§Ä¡À̸ç, ijƮ°¡ ¼öÆò ¹æÇâÀ¸·Î ¾ó¸¶³ª À̵¿Çß´ÂÁö¸¦ ³ªÅ¸³½´Ù. ¸¶Áö¸·À¸·Î, ³× ¹ø° º¯¼ö´Â ijƮÀÇ ¼ÓµµÀÌ´Ù. À̴ ijƮ°¡ ¾ó¸¶³ª ºü¸£°Ô À̵¿ÇÏ°í ÀÖ´ÂÁö¸¦ ³ªÅ¸³»¸ç, ÀûÀýÇÑ ¼Óµµ Á¶ÀýÀÌ ±ÕÇü À¯Áö¿¡ Áß¿äÇÑ ¿ªÇÒÀ» ÇÑ´Ù. ȯ°æÀº º¸Åë Á־(»ý·«)
|