前言
在今年的 5 月 13 日,Open AI 在他们的春季发布会上宣发了一款人工智能新模型——GPT-4o,并宣布将 GPT-4o 免费提供给所有用户使用。
GPT-4o 是 ChatGPT 4 的修改版本,它名字里的字母“o”代表的是“omni”,意为全知全能,而 Open AI 首席技术官 Mira Murati 与其员工展示的功能也确实映照了它的这一含义,GPT-4o 仿佛拥有了人类的眼睛和嘴巴,能见人眼所见,想人类所想,并与我们进行实时交流,见到这一神奇的画面,不禁会想超现实科幻电影里的景象似乎离我们并不遥远了,新的科技纪元似乎就在不远的前方向我们招手。
那么,GPT-4o 的实际性能到底如何呢?又要怎样使用它呢?下面就让我们一起来探索一下来自 GPT-4o 的神奇与惊喜吧~
什么是 GPT-4o?
⭐ChatGPT 官网:chatgpt.com ⭐
⭐Open AI 官网: openai.com ⭐
⭐【2024 年 10 月最新更新】ChatGPT 详细测评使用教程合集⭐
GPT-4o 是 Open AI 推出的最新、最先进的人工智能模型,具有强大的多模态信息处理能力,你可以输入文本、音频、图像、视频,甚至是它们的任意组合,并获取组合式输出。GPT-4o 可以响应用户的实时输入,以接近人类的反应速度响应用户的音画输入;并且它还可以检测人类的情绪与情感,并向人类进行表达和反馈,为用户提供更为丰富的交互体验。Open AI 除了增强了 GPT-4o 的视觉与音频的理解能力外,也增强了它的文本处理能力,新版本的它可以更好地处理除英文外其他语言的输入,并生成更高质量的内容,并为用户打造了新的安全系统,为用户提供更加安全、更具有私密性的使用体验。
不过即使 GPT-4o 的性能得到了大幅的提升,它的处理速度却没有因此而受影响,GPT-4o 不仅能以 GPT 4 Turbo 双倍的速度处理同样的信息,还将成本降低为了原先的二分之一,从各方面来说,GPT-4o 的发布都是一次了不起的科技飞跃。
GPT-4o 的功能有哪些?
① 生成功能
- 图片:包括插画、人像、风景、卡通画、素材图、图标等。
- 文字:包括论文、日记、诗歌、作文、工作汇报、广告营销文案、演讲稿、PPT 大纲、职位描述、简历等。
- 设计:包括电影海报、宣传海报、建筑效果图、景观效果图、平面图、分析图、字体、花纹等。
- 图表:包括任何数据分析图表。
- 代码:可以生成一段代码,并教导用户学习、理解代码,回答用户关于代码的问题,指出代码的错误的同时提供修改建议。
- 3D:可以生成并渲染 3D 模型。
② 交互功能
- 文本实时交互
- 语音实时交互
- 画面实时交互
③ 情感检测与模拟
GPT-4o 可以识别人类的情绪和感情并进行模拟,由语音输出表现给用户,使得人类与 AI 之间的交流更为自然、更流畅。
④ 多语言支持
GPT-4o 现支持 50+ 种语言,并且比起前一代能更好地理解中文指令,提供更优质的中文输出。
GPT-4o 的性能表现
1、文本性能
由图标中可以得知:GPT-4o 在 MMLU(Massive Multitask Language Understanding)常识问题(的测试中获得了 88.7 分,位列第一;在 GPQA(A Graduate-level Google-Proof Q&A Benchmark)多项选择题数据集(包含生物、物理、化学等多个学科领域的 448 个问题)中的测试正确率为 53.6;在 MATH(数学)的测试中获得了 76.6 分;在 HumanEval(机器翻译系统性能基准测试)中的得分为 90.2;在MGSM(The Multilingual Grade School Math Benchmark)中获得了 90.5 分;在 DROP(Discrete Reasoning Over the content of Paragraphs)中获得了 83.4 分。
可以看到 GPT-4o 仅在最后一项的测试中得分稍逊于它的“前辈”GPT-4 与尚在训练的 Llama3 400b,而在其他测试里的得分均与其他模型拉开了一定的差距,这些测试结果凸显了 GPT-4o 在处理常识问题上所展现的强大而卓越的推理能力及文本处理能力。
2、音频 ASR 性能
音频 ASR,Automatic Speech Recognition,即自动语音识别技术。GPT-4o 在这项测试里的文字识别错误率均低于 Whisper-v3(Open AI 最新的语音识别模型),显著提高了所有语言的识别性能,尤其是使用人数较少的小众语言。
3、音频翻译性能
可以从图表里看到 GPT-4o 的语音翻译能力处于领先位置,在 MLS(Machine Learning Service)基准测试中不仅超越了自家的 Whisper-v3,也超越了业内最先进的另外两家 Meta 和Google 的 SeamlessM4T-v2 与 Gemini 模型。
4、M3exam 零样本结果
M3exam 是一种多语言、多模式、多层次的基准测试,由来自其他国家标准化测试中的多项选择题组成,部分包含图表和图形,用于检查大语言模型。GPT-4o 在所有语言的基准测试中展现出的性能均强于 GPT-4。
5、视觉理解评估
由表格可知,GPT-4o 的视觉感知性能超越了其他所有模型,均排名第一,具有目前最先进的视觉感知能力。
GPT-4o 的应用实例
画面互动
实时翻译
学数学
学语言
引导盲人
面试模拟
开玩笑
GPT-4o 与 GPT-4 Turbo 相比的优势在于?
以下是同一个文案需求的分别来自于 GPT-3 与 GPT-4o 的生成演示,提示词输入为“假如你是一名任天堂游戏博主,你需要为你的 B站账号做一篇关于在游戏《塞尔达传说·旷野之息》中如何打败水神兽的游戏视频攻略,请你写出这篇视频教程的文案。需要注意的是,教程视频文案的风格要口语化并具有幽默感,并将时长控制在20-25 分钟左右。”
可以看到 GPT-3 的生成结果完全是瞎编乱造,不包含任何真正的游戏内容,也没有讲清楚任何实际的游戏攻略,在要求了它将内容时长控制在 20 分钟的前提下还是只给了很短的结果,而且比喻很怪;而反观 GPT-4o,不仅给出了详细的游戏攻略步骤,写清楚了正确的出场角色、场景名称和道具名称,甚至还给了详细的视频画面分镜参考,用语也比较轻松、口语化,符合中国人的说话习惯,奇怪的翻译腔和怪异的比喻终于消失了,可喜可贺。
- 更便宜:比 GPT-4 Turbo 的价格便宜一半,GPT-4 Turbo 输入和输出的标记(Tokens)每百万价格为 15 美元,而 GPT-4o 仅需 5 美元。
- 更快速:GPT-4o 的速率限制是 GPT-4 Turbo 的 5 倍,每分钟可以处理多达 1000 万个 Token。
- 更安全:GPT-4o 打造了更安全的系统,相比于 GPT-4 Turbo 它可以更好地保护用户的数据隐私。
- 更直接的语音交互:GPT-4o 可以以极低的延迟跨模块直接处理语音信息,而 GPT-4 Turbo 则需要将语音信息转换为文本再进行处理。
- 更强的画面交互: GPT-4 Turbo 不具备视觉交互能力,但 GPT-4o 做到了。
- 更丰富的情感:GPT-4 Turbo 只能僵硬地和用户进行互动,无法识别人类的情感更无法表现情感,但是 GPT-4o 可以做到这一切。
- 更厉害的语言支持:GPT-4o 在非英语文本上的性能有了显著的提高,全面超越了 GPT-4 Turbo。
GPT-4o 怎么免费使用?
GPT-4o 目前可以官网的免费套餐里,以及一些已将 GPT-4o 集成的 AI 工具里使用。下面就来为大家介绍两种免费使用 GPT-4o 的方法。
1. 官网使用
如果是还不熟悉 ChatGPT 和人工智能工具的朋友,可以参考这篇文章注册 ChatGPT 账号、学习使用技巧:
ChatGPT 怎么用?最详细的 ChatGPT 注册及使用教程,新手速进!
第一步,打开 ChatGPT 官网:chatgpt.com。
第二步,正常输入你的需求(不会写提示词可以看前文推荐的 ChatGPT 教程文章),等待 ChatGPT 给出回答,在它的回答的下方点击红框中的“⚡3.5”,并选择“GPT-4o”,即可切换至 GPT-4o 模型重新生成该问题的回答。
2. POE 使用
第一步,注册登录 POE(AI 智能助手),这里推荐 Google 授权登录,仅需点击两次即可一键授权,比苹果账号注册及普通邮箱注册都要简单快捷,这里是谷歌邮箱账号的注册教程,非常简单:谷歌邮箱 Gmail 注册教程。注册完之后回到 POE 的注册页,点击“使用 Google 继续”,选择你的账号后点击“继续”即可进入 POE 首页。
第二步,在首页的输入框上方选择“GPT-4o”模型,将需求输入文字框内点击发送即可。每天可免费使用 GPT-4o 10 次,每日更新次数。
怎么获取 GPT-4o 更多的使用额度?
ChatGPT 官网及一些集成了 GPT-4o 的 AI 工具只提供有限的 GPT-4o 使用次数,用完就得等第二天,对于需求量大的人不太合适。所以我们可以通过官方的付费套餐来增加 GPT-4o 的使用额度,升级至个人付费套餐即可提升 5 倍 GPT-4o 的使用次数,价格不变,仍是原先的每月 20 美元。打开官网(chatgpt.com),登录后点击左下角的“升级套餐”即可进行购买。
结语
Open AI 关于新模型 GPT-4o 的发布,在人工智能业内可谓是一声惊雷,直接大幅拉开了与市面上其他模型的差距,并且进一步冲击了更多的岗位和企业。
GPT-4o 的强大性能在这篇文章的介绍里也是有目共睹,那么在有了能模拟情感、像真人一样交互的智能模型后,人类的未来又该何去何从呢?在 GPT-4o 以及未来将会出现的无数个更快更强的大模型的陪伴下,人类又能完成怎样的成就呢?
不过这些就都交给时间去解答吧,此时此刻,就让我们先提前一窥未来世界的风光,赶紧上手试一试免费的 GPT-4o 吧!