8月11日,智谱开源了其最新一代视觉了解模型GLM-4.5V,该模型根据智谱新一代文本基座模型GLM-4.5-Air练习而来,具有1060亿参数和120亿激活参数。GLM-4.5V新增了考虑形式的开关功用,用户可自主操控模型要不要进行考虑。
这一模型的视觉才能解锁了一些风趣的玩法,例如能够差异麦当劳肯德基炸鸡翅的差异,并从炸鸡的色泽、外皮质感等视点进行了全面剖析。此外,GLM-4.5V还能够看图猜地址,在与人类玩家一起参加的拍图猜地址积分赛中,参加竞赛7天后,其积分排到了赛事网站的第66名,逾越了99%的人类用户。
智谱还共享了GLM-4.5V在42个基准测验中的成果,该模型在其间41个测验中得分超越同尺度模型。现在,GLM-4.5V已在开源渠道Hugging Face、魔搭、GitHub发布,并供给了FP8量化版别。智谱还为其打造了一个体会App,现在仅有Mac端可用(且有必要为非Intel芯片)。
用户可在z.ai挑选GLM-4.5V模型,上传图片或视频进行体会,或在智谱清言APP/网页版上传图片敞开“推理形式”进行体会。智谱同步开源了一款桌面帮手使用,该使用可实时截屏、录屏获取屏幕信息,并依托GLM-4.5V处理多种视觉推理使命,如代码辅佐、视频内容剖析、游戏回答、文档解读等。
GLM-4.5V API现已上线智谱敞开渠道并供给了2000万tokens的免费资源包。其API最低价为每百万输入tokens/2元、每百万输出tokens/6元,支撑图画、视频、文件和文本输入。