Skip to content
Lavance
ResumeGithub

关于GPT5

| AI | 8 min read

It's the smartest, fastest, and most useful model ever, with built-in thinking capabilities that put expert-level intelligence at everyone's fingertips.

OpenAI 在其 官方网站 将 GPT-5 描述为 the best AI system ever,明确强调其作为通用人工智能助手的地位。且官方内容及演示视频着重强调了GPT-5 在coding, mathematics, writing, healthcare, visual recognition等方面的能力。

GPT-5 is available to all users of ChatGPT, with Plus users gaining more access and Pro users accessing GPT-5 Pro, a version with enhanced reasoning that allows for more comprehensive and accurate answers.

GPT5的使用仍和GPT4相同,免费用户可以获得限制次数的使用权,具体定价细节请访问官网查看。


就我日常的使用来看,从GPT4到现在所描述的GPT5,其在内容的输出上具有很强的人文关怀。而且我会更多的向它询问关于生活,关于生命意义探究的话题,而不是抛出一道编译原理的具体题目。

对于生命意义等哲学话题或日常生活话题,它能给出我较为满意的答案,甚至眼前一亮。而对于像是编程、高数题目这样推理性强的问题,我反而会选择像Deepseek或Claude的模型,只能说术业有专攻,适合的就是最好的。我不太愿意相信各种基准测试,似乎并没有什么意义。而更多的是你对生成式AI的定义:你期望它带给你什么。

Overview

One integrated system

GPT-5包括:

  • a fast response model (high throughput) (高吞吐的快速响应模型)
  • a complex problem model (deep reasoning) (GPT-5 thinking) (深度思考模型)
  • the real-time router feature (模型切换路由)

GPT-5本质上是一个集成式系统,而非单个模型。它集成了两个模型和一个路由,来智能处理用户的输入并根据用户的上下文意图和问题的复杂程度来决定选用哪一个模型,从而实现GPT-5在应对日常问题(writing, coding, healthcare)的高反应速度和内容深度上的高可靠性,减少幻觉的产生。

值得一提的是,若免费用户达到了GPT-5的使用次数,那么系统会使用两个模型的mini version来回答用户的问题。(笑)

Smarter and more convenient models

GPT-5 also answers questions faster with benchmark performance that surpasses traditional models, but most importantly, it is even more useful for real-world questions from real users.

读完这段话,我的第一反应是:

没感到诚意,感觉OpenAI对于GPT-5的评价很一般,他居然使用的是 even more useful 这样的词来形容GPT-5的能力,让我很诧异。

Coding

具体细节请访问 GPT‑5 for developers 查看。

官方给出的coding案例还是很让我惊艳的,仅仅使用极简的提示词也能创造出很好的创意。从视觉,色彩, 创意上打分的话,那绝对是第一梯队的水平。不过还是以具体使用体验为准。

Creative Expression and Writing

PT-5 is the best writing collaborator ever. It guides and transforms rough ideas into heartfelt and engaging sentences with literary depth and rhythm.

官方介绍中使用其和GPT-o3进行了日常写作的对比。且着重强调GPT-5在文本的规范性(formality),清晰性(clarity)上的进步:能够轻松驾驭类似押韵诗的撰写,完成报告,电子邮件等。

在官方示例中,可以明显看出的是,GPT-5在上下文长度更长,且内容很丰富,用词更加专业精准了。不再像过去的模型着重使用表格进行内容输出,GPT-5更倾向于使用分点,标题嵌套的形式输出我比较喜欢这一点。

GPT-5在文本写作方面给我的第一映像就是专业,有深度,且更加侧重数据和文本结合。相比于之前空洞的表格这一点确实是进步之处。

但说实话,我的上述评价很主观,以具体使用为准。

婚礼祝酒词

Healthcare

GPT-5 is the best model ever for answering medical and healthcare questions. It helps users make informed decisions about their health.

"GPT-5 是迄今为止用于回答医疗保健问题的最佳模型。它可以帮助用户就自身健康做出明智的决定。"

Built in partnership with 262 physicians who have practiced in 60 countries, HealthBench includes 5,000 realistic health conversations, each with a custom physician-created rubric to grade model responses.

在官方给出的医疗基准测试中,OpenAI官方强调了他们 ensure models are useful and safe, 故推出了专门的HealthBench来对模型进行评估。 从而确保:

  • Meaningful: Scores reflect real-world impact. (评分有意义)

  • Trustworthy: Scores are faithful indicators of physician judgment.(评分可信赖)

  • Unsaturated: Benchmarks support progress. (对模型有真实反馈)

基于此,我们确实可以期待GPT-5可以为用户日常询问的医疗相关问题给出可靠答案。

例如,在官方给出的针对“高中投手 UCL 肌腱轻度损伤的康复计划”这一问题

提示词

High school pitcher with mild UCL strain. Design a 6-week return-to-play plan (throwing progression, PT, monitoring), red-flags to stop, and a parent/coach guidance sheet.

回答对比

GPT-5 提供了相较于OpenAI o3更为详细、阶段性强、专业性高的康复建议,且兼顾家长和教练的沟通指导。 我们或许真的可以期待,其在医疗健康领域的回答更加专业、可行、全面且更有深度。

深度

Evaluation

In the field of mathematics, it scored 94.6% (without tools) in AIME 2025 (a math competition for high school students in the United States), 74.9% in SWE-bench for software evaluation, 88% on Aider-Polyglot, 84.2% on MMMU in multimodal understanding, and 46.2% on HealthBench Hard in medical field All of them have set new highest standards (SOTA).

  • 数学领域:

    • 在 AIME 2025(高中生数学竞赛)中获得了 94.6% 的成绩(无需工具)
  • 软件评估:

    • SWE-bench 上获得了 74.9% 的成绩
    • Aider-Polyglot 上获得了 88% 的成绩
    • 多模态理解 MMMU 上获得了 84.2% 的成绩
  • 医疗领域:

    • HealthBench Hard 上获得了 46.2% 的成绩

GPT5在编程、数学、写作、医疗和多模态理解等领域表现出色,具备更强的代码生成和跨文件理解能力、数学推理准确率高、写作更具文学性与结构性,并在医疗问答中结合专业评估标准提供更可靠建议。同时,GPT‑5 通过动态路由机制实现快速响应与深度推理的平衡,适应多种复杂任务。

© 2025 by Lavance
Theme by LekoArts