SoPilotSoPilot

🔥 Search Hot Tweets

Search and analyze hot tweets from KOL accounts list (list: https://x.com/i/lists/1961235697677017443) within 6 hours. Use SoPilot plugin to quickly comment and occupy the comment section.

Real-time Hot Tweet Analysis

凡人小北

凡人小北

@frxiaobei· 20.8K followers

最近找了一批真实医疗数据做了个小实验, 结果有点出人意料。 Gemini 3 Pro 第一,Qwen 第二,ChatGPT 5.1 第三, 后面的,就不提了。 这批数据来自真实问诊场景: 患者的主诉是自己描述的,医生的结论是当时真实的诊断和处理。 我们让模型看诊,再跟真实医生的做法做比对。 我想说的是,有些能力真的不是 benchmark 跑得快就能看出来的。 现在很多人觉得大模型都差不多了, 但只要你拿到足够真实和模糊的世界, 差异反而是放大的。 真实世界永远是最狠的测试场。

38
3
8
13.8K
Posted 4d ago · Data updated 3d ago
Reply Suggestion

Est. 100 views for your reply