Profile picture of K.Ishi@生成AIの産業応用

K.Ishi@生成AIの産業応用

@K_Ishi_AI

Published: January 13, 2025
4
158
685
1/5
02:17 AM

「日中に人の操作を学習し、寝ている間にAIが作業する」というコンセプトのPC Agentが登場した。 この研究では、人による実演データを用いてPCの操作手順を学習させ、動作を再現する実験を行った。 その結果、背後にある思考プロセスまで再現でき、人間らしい柔軟性を帯びた対応力の獲得に成功した。

Image in tweet by K.Ishi@生成AIの産業応用
2/5Continued
02:17 AM

この研究は、「人間の認知プロセスを捉えてAIに転移する」というアプローチをとっている点で画期的だ。 AIに人の操作そのものをまるっと、探索ミスや修正手順すら含めて学習させるのがポイントだ。 結果、GUI要素の座標クリックのような従来の汎用LLMが苦手な作業も、柔軟に実行可能になった。

3/5Continued
02:17 AM

実験では133件の操作データを収集し、PowerPointでのプレゼン作成を検証した。 結果は、ChromeとPowerPointを連携させた最大50ステップの操作を実行することに成功し、20件のポスター作成タスクでは11件が要件を満たすレベルで完了できた。 一方で、エラーからの復帰能力には課題が残った。

4/5Continued
02:17 AM

論文中にはエラーの分析結果も書かれており、タスク遂行失敗が起こった原因の共通点として、 - 一度ミスが発生すると、エージェントの回復能力が限られてしまう という問題が浮き彫りになった。 実行後にグラウンディングエージェントが、実態との乖離を検知して修正するなどの工夫が必要だ。

5/5Continued
02:17 AM

品質や汎用性の面からまだ実用的とは言い難いものの、これがわずか133サンプルから得られた結果と考えるとポテンシャルを感じる。 今後ユーザの実操作ログをさらに大量に、かつ長期的に蓄積すれば、PC Agentはさらに多様な用途へと拡張可能だろう。 寝ている間にAIが作業する夢の世界も近い。

Share this thread

Read on Twitter

View original thread

Navigate thread

1/5