ClaudeっていうAIがPCを使えるようになったらしい!すごい!
…なんていう驚き屋さんがたくさん発生していますね。
現実は以下の通り、既存の画像認識能力の延長線上にあるものです。
ここで大事なのは、PC操作ができる!という表層ではなく、画像を認識して、その中に何があるかの理解だけではなく、「どこに」あるかを精密に把握できるようになったのと、抽象的な目的の指示から、具体的な操作に落とし込む能力の向上だと思います。
ということは、コーディング能力の「イケてるUIを作って!」という感じの指示による結果が、より洗練されたものに向上しているかもしれないとか、画像の中の物の場所の認識から、この画像に映っているものは何をしようとしているのか理解する能力の向上とか、そういった基礎的な能力向上の結果である、というのが本質なんじゃないでしょうか。
ちなみに、PC操作デモでブラウザを開いて特定の情報を検索してもらうだけで100円かかった上に、APIレートリミットに当たってエラー停止しました😂 視覚能力を酷使しているからまあ当たり前です!
まだまだベータ版ですね。今後に期待したいと思いますが、いい感じの進歩が続いてるんじゃないでしょうか。