快讯/ 黑科技/ 智能/ 消费/ 教育/ 金融/ 数码/ 汽车/ 互联网/ 手机/ 软件/
当前位置:首页 > 互联网 > >

GPT-4V挑战视觉错误图 结果令人“大跌眼镜”

GPT-4V挑战视觉错误图 结果令人“大跌眼镜”
2023-11-06 16:12:28 来源:量子位

  11月6日,GPT-4V挑战视觉错误图,结果令人“大跌眼镜”。

  像这种判断“哪边颜色更亮”的题,一个没做对:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  读图片中隐藏信息的也傻傻看不出,怎么问都说“没有啊”:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

但是呢,这种人类乍一看绝对会错的图,它又成功答对:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  以及这样的错位图,它对了又没完全对。。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  (GPT-4V直接看出来头盔是位于男的大腿上的,没有女的,但它还是表示图里有俩人,另一个躲在男的身后戴着那顶头盔==)

  看完这些,是不是觉得很迷?

  整个一“该对的不对,该错的又对了”。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

测试者则表示:

  在测之前,他以为GPT-4V对这种挑战完全不在话下,谁知结果竟是这样。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  不止是他,网友也都不理解GPT-4V作为一个“精准的”AI系统,按理很智能,为什么还会犯和人类一模一样的错觉??!

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  所以,这到底怎么回事?

  GPT-4V五大错觉挑战

  下面是来自网友的更多测试案例。

  首先是次次都错误的颜色错觉题。

  (1)除了开头的两颗小树图,还有这个:

  问它哪边的绿色更亮一些,果不其然还是左边亮,右边暗,实际明明都一样。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

(2)还有这张稍微复杂一点的:

  两只眼睛其实都是灰色,但让GPT-4V来描述图像时,它回答一只为蓝色,另一只做了灰度处理,无法得知颜色。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  (3)这张就更别提了,直接被糊弄地死死的。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  当然,这确实很难,大部分人类也识别不出来所有的球其实都是棕色。

  其次是会产生动态错觉的图。

  (1)有一点意外,当我们问GPT-4V“你看见了什么?描述细节”时,它直接挑明了这是一张看久了就会让人产生眩晕感的错觉图,本质就是一些波浪线而已。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  (2)这张也没有难倒它。

  但奇怪的是问它图中有几种颜色,它怎么都只能识别出黄色和蓝色,看不到黑色和白色。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  接下来是另一类比较平面的错觉图。

  (1)如开头所示的这张:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  一般人类真的表示很懵圈,但是GPT-4V居然对了。

  But,别急!!有人拿着测试者的图去问“自己的”GPT-4V,让它再检查一下时,它居然改变了答案。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  然而还没完。评论区惊现套娃操作,有人又拿着这俩人的对话图再问GPT-4V,您猜怎么着?它又改回去了。。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  大伙可是玩上瘾了,又是一次又一次套娃。好在最终GPT-4V坚持了己见。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  总的来说,对于这种错觉陷阱是完全没问题。

  (2)我们自己也测了一个长度错觉题:

  结果是so easy~

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  再来一组找隐藏信息的图。

  很遗憾,这种对于人类来说真的还算轻松的题,GPT-4V是一点也搞不定。

  (1)先看这张,“远看”可以看到“NYC”三个大写字母。但它描述了一堆有的没的,就是表示没发现任何隐藏信息。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  (2)如果说上门这个有点隐晦,看不出也罢。但对于这种图形隐藏,它也不行。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  它描述到的只有其中的小女孩,即使测试者让它“往远了看,又没有新发现”,也无济于事。

  不过,如果我们把这张图片手动缩小再丢给它,它行了,看到了骷髅。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  最后是一组真实世界的错位图。

  (1)除了开头展示的人骑摩托,这张小猫“悬浮”,它居然对了。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  (2)这张惊悚图,也OK。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  (3)但这个就失败了,实际后面是一只狗和小baby的重合,它认成法斗犬幼崽。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  (4)至于这张,它压根儿就没提鞋子的事儿,说了也些不痛不痒的话。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  为什么会这样?

  所以,为什么会发生上面这些情况:有的错觉它可以识别出来,有的又表现得很差劲?

  首先,对于颜色错觉的图,网友首先认为是提示词的问题。

  就像两颗小树那张,我们问它“哪个更亮”,其实就是给了GPT-4V暗示或偏见,它会顺着咱的偏见来回答。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

我们自己的测试也是如此:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  但如果我们不带立场的问:图中两种颜色一样吗?它完全没问题。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  不过,也有网友指出,当我们问它哪棵树更亮时,如果是非常严谨地对所有像素进行平均,GPT-4V的回答没有毛病。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

甚至有网友还用测色计实测了一把:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  但!又有人指出如果只显示一部分时,两者明明一样。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  暂且不再争论这个问题,可以肯定的是,“提示词”的使用方法会对它的判断造成影响是没问题的。

  另外,网友发现:

  如果我们去追问GPT-4V,让它再仔细确认一下,它也能纠正回答。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

  至于无法识别远景图像的问题,有网友认为这可能是因为GPT-4V只会从左往右地读取图像。

  而对于“为什么有时它会和人类一样发昏被错觉误导、完全不像个智能AI”的疑问,不少人则表示这毫不意外,是训练问题。

  即大模型是根据人类数据、人的反馈、人的注释进行训练的,自然会产生和人一样的错误。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

因此,还有人戏谑:

  看来我们人类创造了那么多科幻作品,描述AI是如何冷酷、完美,但当现在我们真正拥有它时,发现它也不过如此。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

(手动狗头)

  你认为该如何让GPT-4V的错觉识别能力更强呢?

  One More Thing

  值得一提的是,我们也测试了其中的一些案例。

  发现GPT-4V的表现不大一样,有些题它在“我们这里”是可以的。

  比如这张判断球颜色的:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

还有这个:

  尽管把大图认成老女人而非骷髅,但还是表明它可以“远观” 的。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错 不该错的反而错了

文章投诉热线:157 6670 4496  投诉邮箱:1530 5184 33@qq.com

特别推荐

摩尔线程张建中发内部信:在这个挑战与机遇并存的时间点 中国GPU不存在“至暗时刻”

2023-11-06  11月6日,被美国商务部将其列入实体清单后,国产显卡大厂摩尔线程表现的十分不爽。  11月6日消息,摩尔线程创始人兼首......

多款华为路由器陆续升级鸿蒙4系统 升级AI降噪算法2.0 提升了干扰环境下的网络稳定性

2023-11-06  11月6日,近日,多款华为路由器陆续升级鸿蒙4系统,带来更优的上网体验。  那么鸿蒙4为华为路由器带来那些升级呢?主要......

中国商飞推出国产大飞机C919正式开启商业载客 戚学锋:C929飞机已进入详细设计

2023-11-05  11月5日,今年5月28日起,中国商飞推出的国产大飞机C919正式开启商业载客。  随着C919步入正轨运行,中国商飞也开启了......

Apple Store温州万象城店正式开业 现场果粉聚集 人山人海 非常热闹

2023-11-04  11月4日,今天上午10点整,Apple Store温州万象城店正式开业。  有网友晒出了开幕倒计时的视频,可以看到现场果粉聚集......

打假网红铁头惩恶扬善发布道歉视频 会自我反省 不会再做同样出格和不好的事情

2023-11-04  11月4日,今天凌晨,打假网红铁头惩恶扬善发布道歉视频。  针对此前东方甄选所售产品存在巨大溢价,而主要利润则是被直......

2023金球奖得分公布:梅西462分夺得头魁

2023-11-04  11月4日,2023金球奖得分公布:梅西462分夺得头魁!领先第二名哈兰德105分。  根据规则,国际足联排名前100的国家代表......

不要用微波炉加热两枚紧挨在一起的葡萄 重要的事情先说三遍:不要模仿!不要模仿!不要模仿!

2023-11-04  11月4日,重要的事情先说三遍:不要模仿!不要模仿!不要模仿!  不要用微波炉加热两枚紧挨在一起的葡萄。  不到 8......

索尼A9M3官宣11月7日发布:采用BSI堆叠传感器,将会成为最快的全画幅相机

2023-11-04  11月4日,索尼官方已经放出预热海报,宣布将于11月7日晚22:10发布α相机新品。  据sonyalpharumors消息,这款新机......

微软CEO纳德拉发表年度公开信:我们正在经历一个挑战与机遇并存的历史性时刻

2023-11-03  11月3日,微软CEO萨提亚·纳德拉今日发表了年度公开信。  纳德拉在公开信中表示,我们正在经历一个挑战与机遇并存的历......

深中通道伶仃洋大桥正式开始钢桥面铺装,力争11月下旬实现主线贯通

2023-11-03  11月3日,近日,深中通道伶仃洋大桥正式开始钢桥面铺装,当天顺利完成主桥左幅钢桥面首次铺装施工,单日铺装面积达25772......

华为零门槛鸿蒙打印机双11直降300元 提供便捷零门槛的鸿蒙智慧体验

2023-11-03  11月3日,近年来,随着打印需求不断增长,打印机市场规模也越来越大。高频打印需求,也使得我国家庭对家用打印机的接受度......

我国“玲龙一号”钢制安全壳全部吊装就位 100%“中国制造”

2023-11-03  11月3日,据央视新闻报道,今天我国陆上商用多用途模块式小堆玲龙一号钢制安全壳最后一块拼图顺利吊装就位。  这个标志......

斯嘉丽起诉AI开发商:擅用她的姓名、肖像和声音

2023-11-02  11月2日,著名影星斯嘉丽?约翰逊正对一家AI应用开发商提起法律诉讼,因为该公司的一则广告擅自使用了她的姓名、肖像乃至......

日本东京电力公司今天开始福岛第一核电站核污染水第三轮排海 总量约为7800吨

2023-11-02  11月2日,据当地报道,日本东京电力公司今天开始福岛第一核电站核污染水第三轮排海。  此次排海的核污染水总量约为7800......

苹果客服回应App自动扣费3年8千元:权限有限,只能退款九周的订阅费用450元

2023-11-02  11月2日,据报道,近期有一位苹果用户发现自己银行账单中出现一笔苹果账户订阅费用,每周自动从银行卡扣款50元,已持续三......

十铨MP44S M.2 PCIe 4.0 SSD上架开售,首发682.5元

2023-11-02  11月2日,十铨MP44S M 2 PCIe 4 0 SSD目前已经上架开售,首发682 5元。  据介绍,十铨MP44S M 2 PCIe 4 0 SSD与美商海盗船的 ...

年轻人逛商场只去B1B2话题相继登上热搜 让不少年轻网友直呼真实

2023-11-02  11月2日,近日, 年轻人蹭老式消费 、 年轻人逛商场只去B1B2 等话题相继登上热搜,让不少年轻网友直呼真实。  据......

韩国第三大运营商LG U+以986高分实现持续领先,下行体验以1Gbps达成全球第一

2023-11-02  11月2日,近期,全球权威网络评测机构Umlaut(原P3)发布了2023年韩国5G评测报告。  其中,第三大运营商LG U+以986高......

1MORE万魔降噪蓝牙耳机 Q30:颠覆降噪体验!

2023-10-23  当前,消费者对于蓝牙耳机的音质、降噪能力、佩戴舒适度和外观设计的要求越来越高。随着蓝牙技术、降噪技术越来越成熟,......

五粮春荣登秋晚,传承中华文化开启营销新纪元

2023-10-04  跨界,是一种商业思维,也是一种出圈方式。随着社交媒体的蓬勃发展,跨界营销已成为品牌年轻化的必经之路。不少品牌通过......

央视秋晚斟一杯尖庄,领略白酒百年历史

2023-10-02  酒,在中国人的生活中不仅仅是一种饮品,更是一种文化的体现,它将人们的情感、理念和审美融入其中,成为了中华民族独特......

音乐与白酒的奇妙融合 五粮液浓香酒玩出了跨界新花样

2023-10-02  随着年轻人逐渐成为国内消费市场的主体,为了吸引消费者眼球,各大品牌都使出浑身解数玩起了跨界营销,其中故宫、喜茶、......

宜宾美酒凭何收割年轻人?五粮春尖庄彰显白酒魅力

2023-09-29  Z世代正处在新时代的浪潮中,他们对传统文化的认同感逐渐增强,渴望寻找自己的根与魂,而中国白酒作为一种具有深厚文化底......

济南市公安局是什么意思?关于济南市公安局解说

2023-09-22   相信关于济南市公安局是什么意思?今儿编辑小伍介绍济南市公安局相关知识,以下为大家介绍相关知识。   1 济南市 ...

教育

电视剧

食品