Tag: 強化学習

8 posts tagged with "強化学習"

近況アップデート

投稿: 2024年4月30日

2024年に入ってから4ヶ月が経過し、感じたことなどをまとめた。本当は特定のトピックについて深堀りたかったが、気力が足りなかった。新年早々「2024年の抱負」みたいな記事を書こうとして無駄にハードルを上げてしまった結果かもしれない。 ## 仕事関連引き続き、コンテナ追跡SaaS「MonCargo」をメインでやっている。最近、Rustを本番環境で使い始めた。Rustは本当に書いていて楽し...

ポケモンの最適解を知るため、強化学習を勉強している。 DQN の強化学習において、報酬は「勝敗」や「ポケモンの死亡・討伐」に加えて、「受けた・与えたダメージ」を入れると学習が進みやすいということが分かったので、複数のポケモンで実装した。といっても、最初にやっていたように 6:6 だとまだ学習が安定しなそうなので、とりあえず 2:2 で実験した。AI の対戦相手は、前と変わらず `JustAtt...

ポケモンの強化学習AI(6)

投稿: 2022年9月15日

ポケモンの最適解を知るため、強化学習を勉強している。 [前回の記事](https://acro5piano.com/post/2022-09-11-pokemon-dqn-vs-just-attack/) では、学習が進まない問題を切り分けるために、一旦シンプルなルール下で試行錯誤した。 AI にとって不利な状況で最善の行動を学習する方法を検討し、カリキュラム学習によって成功体験を積むことで学...

ポケモンの強化学習AI(5)

投稿: 2022年9月11日

ポケモンの最適解を知るため、強化学習を勉強している。現在は、下記のルールで定義される簡易版初代ポケモンにおいて、 `JustAttackPlayer` というただランダムに攻撃してくるプレイヤーに勝利することが目標。 - ダメージ計算は本物のルールと同じ - 「まひ」などの状態異常、追加効果、PP、「みがわり」や「じこさいせい」などの変化技は考慮しない - 下記 3 種類から 6 体を選出...

ポケモンの強化学習AI(4)

投稿: 2022年9月7日

ポケモンの最適解を知るため、強化学習を勉強している。今回は下記についてまとめる。 - ルールを実際のポケモン対戦に近くしたこと - DQN を用いて、最適な行動を学習して推定する実装を書いたこと - 結論、まだ全然ちゃんとしたものができていないこと ## 背景 [前回の記事](https://acro5piano.com/post/2022-08-30-pokemon-reinforcem...

ポケモンの強化学習AI(3)

投稿: 2022年8月30日

ポケモンの最適解を知るため、強化学習を勉強している。何から始めればよいか分からなかったので、まずは強化学習で定番らしい、迷路を走破する AI を実装してみた。次に、超簡易版ポケモンをプレイする AI を実装した。 Python でなく Rust で実装したが、特に理由は無く、やってみたかっただけである。 ## 迷路走破 AI の実装調べてみると、強化学習においては Q 学習というものが主流...

ポケモンの強化学習AI(2)

投稿: 2022年8月13日

以前 [ポケモンの強化学習 AI(1)](https://acro5piano.com/post/2022-07-31-reinforcemented-pokemon/) という記事で、初代ポケモンを今プレイすることの面白さを書いた。ただ、面白さの解説で熱が入ってしまい、本題である技術的なことや、これまで強化学習で勉強したことは書けなかったので、本記事に残しておこうと思う。ちなみに、現在（2...

ポケモンの強化学習AI(1)

投稿: 2022年7月31日

ポケモンの誕生から 20 年以上経った今でも、初代ポケモンをプレイし続けている人たちがいる。さすがに公式の大会は最新バージョンしか開催されていないが、非公式の [Pokemon Showdown](https://play.pokemonshowdown.com/) (以下 PS）という環境でいまだに数千人はプレイしている。私もふとしたきっかけから初代ポケモンを今プレイすることの面白さに気づき...