火星财经消息,5月9日,根据最新基准测试,谷歌最新大语言模型Gemini 2.5 Pro在多个关键领域展现出卓越性能:
编码能力:在LiveCodeBench评估中超越GPT-4 Turbo(78.3% vs 73.9%),成为首个在该测试中超越人类平均分(75.1%)的AI模型
IQ表现:在Mensa智商测试模拟中取得惊人成绩(标准分147分,相当于人类前0.1%水平)
综合实力:虽在部分基准测试中稍逊于Claude 3.5 Sonnet,但整体保持第一梯队水平
行业专家指出,AI在特定测试中的优异表现并不等同于通用智能,但确实反映出大模型在复杂推理和专业任务上的快速进步。谷歌计划近期向开发者全面开放Gemini 2.5 Pro API,或将进一步推动AI应用创新。
发表评论 取消回复