面对ChatGPT的压力,谷歌太需要一款杀手级AI产品,证明自己在人工智能领域的地位。在6月的I/O开发者大会上,谷歌CEO皮查伊首次透露了Gemini的存在,如今Gemini终于面向公众推出了。谷歌针对不同场景发布了三种不同版本:Gemini Ultra、Gemini Pro 和 Gemini Nano。谷歌表示,这是其迄今为止功能最强大、最通用的人工智能大模型,根据谷歌给出的基准测试结果,Gemini在许多测试中击败了OpenAI的GPT-4。
“有意见”留言板
@刷数据:不是同一基准就来“遥遥领先了?”,Gemini 为何要用 Cot@32 的数据和 GPT-4的5-shot数据比较?同一基准上反而有的项目还不及,比如在HellaSwag数据集上还落后GPT4很多,这个发布报告是来挑战读者会不会仔细看的么?
@Betty:功能都有一样,能不能有点创新?
好文章,需要你的鼓励
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。