AI模型(PIGEON):通过几张照片就能找到你的位置

站长之家 2023-12-20 10:54:27新闻资讯
128

斯坦福大学的研究生们开发了一款名为 PIGEON 的应用程序,可以仅仅通过查看 Google 街景图像或其他图像来确定具体位置,其准确率令人印象深刻。

根据预印本论文的数据,PIGEON 可以以92%的准确率预测所拍摄国家,并且在40%的猜测中可以将位置定位在目标位置的25公里范围内。该论文指出,PIGEON 在 GeoGuessr 游戏中排名前0.01%的玩家之内,该游戏要求用户根据所拍摄的 Google 街景图像猜测位置,这也是这个项目的灵感来源。

那么,PIGEON 是如何工作的呢?

学生们利用了 OpenAI 开发的神经网络 CLIP,通过对视觉类别名称进行训练,使其能够将文本和图像进行连接。然后,他们根据 GeoGuessr 的数据集进行了训练,该数据集包含了10万个原始随机采样的地点和四张图像,以覆盖给定位置的整个 “全景”,总共有40万张图像。与其他 AI 模型训练的图像数量相比,PIGEON 的训练图像数量相对较少。例如,OpenAI 流行的图像生成模型 DALL-E2是基于数亿张图像进行训练的。

PIGEON.png

此外,学生们还研发了一个名为 PIGEOTTO 的单独模型,该模型通过训练来自 Flickr 和维基百科的400万张照片,以从单张图像中识别位置。根据论文的数据,PIGEOTTO 在图像地理定位基准测试中取得了令人印象深刻的成绩,在城市准确度方面超过先前的最新技术结果7.7%,在国家准确度方面超过29.8%。

论文还探讨了与该模型相关的伦理考虑,包括其益处和风险。在一方面,图像地理定位具有许多积极的用途,例如自动驾驶、视觉调查以及满足对照片拍摄地点的好奇心。然而,其负面影响包括对隐私的最直接侵犯。因此,学生们决定不公开发布模型权重,仅在学术验证时发布代码。

这项研究为我们展示了 AI 在图像地理定位方面的巨大潜力,但也引发了隐私和伦理方面的一些担忧。在将来的发展中,必须更加重视这些问题,并确保合适的保护措施得以实施。

论文网址:https://arxiv.org/abs/2307.05845

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Pruna:一站式模型优化框架,解锁AI性能新高度
Pruna是一个专为开发者打造的模型优化框架,旨在通过一系列压缩算法,如缓存、量化、剪枝、蒸馏和编译技术,全面提升模型的综合性能。这些算法能够显著降低模型的大小、提高运...
2025-03-21 新闻资讯
214

Roblox开源Cube3D:首个基础AI模型实现3D对象生成
近日,Roblox宣布推出并开源Cube3D,这是该公司首个用于生成3D对象的基础AI模型。根据Roblox的新闻稿,Cube3D旨在提高3D创作效率,让开发者能够快速探索创作方向并提升生产力...
2025-03-18 新闻资讯
198

字节AI音效生成模型SeedFoley上线即梦,一键生成大片感音效
字节跳动直接放出王炸级AI黑科技,一举打破视频创作的最后一道静音魔咒!他们最新推出的SeedFoley音效生成模型,如同为视频注入了声命之魂,只需轻轻一点,就能为你的视频智能...
2025-03-13 新闻资讯
221

CogView4:首个支持生成汉字的开源AI文生图模型
CogView4是由智谱科技在2025年3月4日正式发布的一款开源AI文生图模型。作为CogView系列的最新成员,CogView4不仅支持中文提示词的输入,还能将中文文本直接转化为生动图像,成...
2025-03-04 新闻资讯
252

SkyReels-V1:昆仑万维开源的AI短视频生成模型
SkyReels-V1是昆仑万维开发的一款面向AI短剧创作的视频生成模型。它利用先进的深度学习技术,通过结合口型生成、表情生成和肢体生成等多个生成模块,实现了对人物表演细节的精...
2025-02-19 新闻资讯
261

VMix:提升文本到图像扩散模型的交叉注意力混合控制
VMix是一种新颖的即插即用适配器,通过细粒度的美学控制显著提升了文本到图像生成模型的性能。其灵活的设计和强大的功能使其在个性化图像生成、艺术创作、商业应用和教育培训...
2025-01-18 新闻资讯
238