作者:AIGC开放社区
本月初,OpenAI在社交平台宣布,全面开放GPT-4 Turbo API中的Vision(视觉识别)功能,并且很快将上线至ChatGPT。
开发者在使用Vision时可以使用JSON 模式和函数调用。这也就是说,可以通过Vision去做更多复杂、精准的操作,例如,图像的分类、检测、数据转换等。
2023年11月6日,OpenAI在首届开发者大会上发布了GPT-4 Turbo模型,当时已经向部分开发人员开放了Vision。
该功能与传统的OCR(光学字符识别)类似,不过Vision可以将提取的数据与大模型相结合使用,所以,玩法和应用场景更广阔一些。
目前,已经有很多企业和个人开发者通过Vision开发了很多实际的业务用例。
例如,前段时间爆火的首个AI代理Devin的视觉识别功能,便由Vision提供技术支持。
可以快速提取、识别用户输入的任何超链接或图像,并且能基于提取的内容进行深度对话,实现更多的代码功能。
著名应用Snap的开发团队通过Vision,开发了一个识别功能。可以快速检测全球世界各地的美食,并提供详细的营养见解以及饮食需求。
例如,在得到食物的营养列表后,可以继续发问能根据这个食物,给我一份详细的3周减肥计划吗?
有人用Vision开发了一个可视化代码平台,用户只需要在白板UI上进行绘制,就能通过Vision强大的识别和转换能力,将草图直接生成网站。
简单来说,Vision相当于大模型的“眼睛”,可以将很多看到的图像、标签、符号等转化成特定的数据,这极大的扩大了开发应用的边界。
此外,GPT-4-turbo的训练数据也进行了更新,已经截止至2023年12月,比之前多了8个月的时间。上下文方面最多支持12.8万tokens。
— End —
欢迎关注微软 智汇AI 官方账号
一手资讯抢先了解