华为世界模型来了!单卡30分钟形成272㎡场景
发布时间:2025-10-29 11:02
文乐 发表者:ao fei qubit |公众号Qbitaiai大屋来了。华为联合上海交通大学、华中科技大学推出了世界模型Wordgrow,可以生成1800平方米(19x39块)的大型室内场景。单张卡30分钟可覆盖272平方米。 可以说是走到哪儿就建到哪儿。场景是怎样布置的? 具有连贯的几何拓扑和逼真的外观 过去,我想创建一个像样的3D场景,但有很多陷阱。例如,某些方法首先使用 2D 模型绘制图像,然后将其硬编码为 3D。视角改变后,沙发腿弯曲,墙壁纹理被破坏……还有一些方法只能创造更多的单间,扩大到套房时还有maiiwasan。更离谱的是,毫无布局逻辑——冰箱插在卧室里床放在厨房里。 第一步是进行精确的数据预处理,从3D-front等大数据集中提取高质量样本,使用blender进行场景切片,通过布尔交集将场景分成块,然后依靠检测工作来保证块内容密度(可见内容≥95%)。同时构建了粗、细两个数据集。粗块决定宏观布局,细块保留纹理细节。第二步依靠3D块补全机制来实现无缝拼接。生成新块时,首先确定 3D 结构的轮廓,然后潜在生成器重建轮廓的可变可变特征(SLAT)以确保统一的外观和风格。而且,当模型的输入时,噪声变量、二值掩模的辅助掩模和掩模特征区域被包裹和合并,这使得m根据现有块上下文中的信息准确生成模型,消除诸如断裂边缘和纹理错位等接缝。第三步是由粗到细的生成策略,将扩展场景变成完成缺失块的任务。首先,通过结构的粗略模型确定总体规划,如窗户的布局、走廊的连接等;然后对粗纹理进行三线性插值上采样以匹配精细块级别的分辨率,然后调用精细结构生成器来完成工具和纹理等细节。 实验数据表明,在3D-front数据集中,MMD和CoV的几何重建指标均达到SOTA,且FID(用于评估生成质量的主要指标,越低越好)小于7.52,明显优于sync、blockfusion等主流方法; 团队国际生产 该文章的第一作者是上海交通大学的李思匡和杨晨。这项研究是他们在华为实习期间完成的。陈阳现在还是华为的研究实习生。他的研究重点是计算机视觉和计算机图形学。他的导师之一是这项研究的通讯作者艾古鲁田七。田奇,华为终端BG首席科学家、国际欧亚科学院院士、ACM/IEEE Fellow。论文地址:https://arxiv.org/abs/2510.21682 - 完— 特别声明:本文由网易自媒体平台“网易号”作者上传发布,仅代表作者观点。网易仅提供信息发布平台。 注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。
购买咨询电话
400-123-4567