我们当这个“监工”,代价是巨大的。 首先,效率极低。AI为了“表演”给我们看,它消耗的Token(计算资源)根本不是用来“思考”,而是用来“理解GUI”和“描述操作”。它本可以一秒钟调用API完成任务,现在非得花三十秒来识别页面上的内容,再模拟人类 ...
它不依赖API,而是通过计算机视觉(CV ...