証券番号の発行元をニューラルネットワークで推論した (scikit-learn)
遂に機械学習を実務で使うことに成功した。しかも自分でやっているサービスで実現できて、とても嬉しいので記事にする。 ## 背景 私が運営している海上コンテナ追跡サービス「[MonCargo](https://moncargo.io/ja)」では、顧客に船荷証券番号 (以下B/L番号) を登録してもらう必要がある。その際、どの船会社なのかを毎回選択する必要があるのだが、これが地味に手間になってい...
5 posts tagged with "python"
遂に機械学習を実務で使うことに成功した。しかも自分でやっているサービスで実現できて、とても嬉しいので記事にする。 ## 背景 私が運営している海上コンテナ追跡サービス「[MonCargo](https://moncargo.io/ja)」では、顧客に船荷証券番号 (以下B/L番号) を登録してもらう必要がある。その際、どの船会社なのかを毎回選択する必要があるのだが、これが地味に手間になってい...
ポケモンの最適解を知るため、強化学習を勉強している。 DQN の強化学習において、報酬は「勝敗」や「ポケモンの死亡・討伐」に加えて、「受けた・与えたダメージ」を入れると学習が進みやすいということが分かったので、複数のポケモンで実装した。といっても、最初にやっていたように 6:6 だとまだ学習が安定しなそうなので、とりあえず 2:2 で実験した。AI の対戦相手は、前と変わらず `JustAtt...
ポケモンの最適解を知るため、強化学習を勉強している。 [前回の記事](https://acro5piano.com/post/2022-09-11-pokemon-dqn-vs-just-attack/) では、学習が進まない問題を切り分けるために、一旦シンプルなルール下で試行錯誤した。 AI にとって不利な状況で最善の行動を学習する方法を検討し、カリキュラム学習によって成功体験を積むことで学...
ポケモンの最適解を知るため、強化学習を勉強している。 現在は、下記のルールで定義される簡易版初代ポケモンにおいて、 `JustAttackPlayer` というただランダムに攻撃してくるプレイヤーに勝利することが目標。 - ダメージ計算は本物のルールと同じ - 「まひ」などの状態異常、追加効果、PP、「みがわり」や「じこさいせい」などの変化技は考慮しない - 下記 3 種類から 6 体を選出...
ポケモンの最適解を知るため、強化学習を勉強している。今回は下記についてまとめる。 - ルールを実際のポケモン対戦に近くしたこと - DQN を用いて、最適な行動を学習して推定する実装を書いたこと - 結論、まだ全然ちゃんとしたものができていないこと ## 背景 [前回の記事](https://acro5piano.com/post/2022-08-30-pokemon-reinforcem...