AI模型(PIGEON):通过几张照片就能找到你的位置

站长之家 2023-12-20 10:54:27新闻资讯
234

斯坦福大学的研究生们开发了一款名为 PIGEON 的应用程序,可以仅仅通过查看 Google 街景图像或其他图像来确定具体位置,其准确率令人印象深刻。

根据预印本论文的数据,PIGEON 可以以92%的准确率预测所拍摄国家,并且在40%的猜测中可以将位置定位在目标位置的25公里范围内。该论文指出,PIGEON 在 GeoGuessr 游戏中排名前0.01%的玩家之内,该游戏要求用户根据所拍摄的 Google 街景图像猜测位置,这也是这个项目的灵感来源。

那么,PIGEON 是如何工作的呢?

学生们利用了 OpenAI 开发的神经网络 CLIP,通过对视觉类别名称进行训练,使其能够将文本和图像进行连接。然后,他们根据 GeoGuessr 的数据集进行了训练,该数据集包含了10万个原始随机采样的地点和四张图像,以覆盖给定位置的整个 “全景”,总共有40万张图像。与其他 AI 模型训练的图像数量相比,PIGEON 的训练图像数量相对较少。例如,OpenAI 流行的图像生成模型 DALL-E2是基于数亿张图像进行训练的。

PIGEON.png

此外,学生们还研发了一个名为 PIGEOTTO 的单独模型,该模型通过训练来自 Flickr 和维基百科的400万张照片,以从单张图像中识别位置。根据论文的数据,PIGEOTTO 在图像地理定位基准测试中取得了令人印象深刻的成绩,在城市准确度方面超过先前的最新技术结果7.7%,在国家准确度方面超过29.8%。

论文还探讨了与该模型相关的伦理考虑,包括其益处和风险。在一方面,图像地理定位具有许多积极的用途,例如自动驾驶、视觉调查以及满足对照片拍摄地点的好奇心。然而,其负面影响包括对隐私的最直接侵犯。因此,学生们决定不公开发布模型权重,仅在学术验证时发布代码。

这项研究为我们展示了 AI 在图像地理定位方面的巨大潜力,但也引发了隐私和伦理方面的一些担忧。在将来的发展中,必须更加重视这些问题,并确保合适的保护措施得以实施。

论文网址:https://arxiv.org/abs/2307.05845

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

SmolLM:Hugging Face推出的轻量高效多语言长上下文推理模型
SmolLM 是Hugging Face推出的"小而精"语言模型系列,其名称"Smol"源于"Small"的变体,直指其"以小搏大"的核心设计哲学。该项目始于SmolLM2的发布,最初定位为资源受限设备(如...
2025-07-11 新闻资讯
228

DiffuCoder:苹果公司与香港大学联合研发的并行化代码生成模型
DiffuCoder是苹果公司与香港大学联合研发的一款革命性代码生成模型,它突破了传统自回归语言模型(如GPT系列)必须按顺序生成代码的限制,采用掩码扩散模型(Masked Diffusio...
2025-07-10 新闻资讯
237

OmniSVG:全球首个端到端多模态可缩放矢量图形(SVG)生成模型
OmniSVG 是由复旦大学与阶跃星辰(StepFun)联合研发的全球首个端到端多模态可缩放矢量图形(SVG)生成模型,代表了当前AI生成矢量图形领域的最前沿技术突破。作为一项开源项目,...
2025-07-10 新闻资讯
242

MetaStone-S1:融合深度推理与过程评分的反射生成模型
MetaStone-S1 是北京元石科技推出的反射生成式大模型,其核心创新在于提出了"反思型生成范式"(reflective generative paradigm),通过统一框架实现了推理生成与过程评估的协同...
2025-07-09 新闻资讯
264

EarthMind:面向多粒度多传感器地球观测的统一多模态大模型
EarthMind 是由意大利特伦托大学、德国柏林工业大学、慕尼黑工业大学以及保加利亚INSAIT研究院联合开发的开源多模态大模型项目,专门针对地球观测(Earth Observation, EO)数据...
2025-07-07 新闻资讯
248

MOSS-TTSD:开源的文本到口语对话生成模型
MOSS-TTSD 是由上海创智学院、复旦大学和模思智能的OpenMOSS团队联合推出的一个开源的文本到口语对话生成模型,专为多人对话场景设计,能够将完整的对话脚本直接转换为自然流...
2025-07-07 新闻资讯
264