网站导航

新闻资讯 编程技术 电脑知识 站长之家 自媒体

AI模型(PIGEON)：通过几张照片就能找到你的位置

站长之家 2023-12-20 10:54:27新闻资讯

541

斯坦福大学的研究生们开发了一款名为 PIGEON 的应用程序，可以仅仅通过查看 Google 街景图像或其他图像来确定具体位置，其准确率令人印象深刻。

根据预印本论文的数据，PIGEON 可以以92%的准确率预测所拍摄国家，并且在40%的猜测中可以将位置定位在目标位置的25公里范围内。该论文指出，PIGEON 在 GeoGuessr 游戏中排名前0.01%的玩家之内，该游戏要求用户根据所拍摄的 Google 街景图像猜测位置，这也是这个项目的灵感来源。

那么，PIGEON 是如何工作的呢?

学生们利用了 OpenAI 开发的神经网络 CLIP，通过对视觉类别名称进行训练，使其能够将文本和图像进行连接。然后，他们根据 GeoGuessr 的数据集进行了训练，该数据集包含了10万个原始随机采样的地点和四张图像，以覆盖给定位置的整个 “全景”，总共有40万张图像。与其他 AI 模型训练的图像数量相比，PIGEON 的训练图像数量相对较少。例如，OpenAI 流行的图像生成模型 DALL-E2是基于数亿张图像进行训练的。

此外，学生们还研发了一个名为 PIGEOTTO 的单独模型，该模型通过训练来自 Flickr 和维基百科的400万张照片，以从单张图像中识别位置。根据论文的数据，PIGEOTTO 在图像地理定位基准测试中取得了令人印象深刻的成绩，在城市准确度方面超过先前的最新技术结果7.7%，在国家准确度方面超过29.8%。

论文还探讨了与该模型相关的伦理考虑，包括其益处和风险。在一方面，图像地理定位具有许多积极的用途，例如自动驾驶、视觉调查以及满足对照片拍摄地点的好奇心。然而，其负面影响包括对隐私的最直接侵犯。因此，学生们决定不公开发布模型权重，仅在学术验证时发布代码。

这项研究为我们展示了 AI 在图像地理定位方面的巨大潜力，但也引发了隐私和伦理方面的一些担忧。在将来的发展中，必须更加重视这些问题，并确保合适的保护措施得以实施。

论文网址:https://arxiv.org/abs/2307.05845

ai

本文来源于#站长之家，由@tom 整理发布。如若内容造成侵权/违法违规/事实不符，请联系本站客服处理!

该文章观点仅代表作者本人，不代表本站立场。本站不承担相关法律责任。

如若转载，请注明出处：https://www.zhanid.com/news/319.html

THE END

tom

不图事事圆满但图事事甘心。

相关推荐

gpt币子下架了？别慌！老张拆解真相：AI模型和币圈下架大不同

gpt币子下架了？别慌！老张拆解真相：AI模型和币圈下架大不同

别闹了！GPT-4o根本不是加密货币最近粉丝私信刷爆了。都在问GPT币下架的事。我一看就笑了。GPT-4o是OpenAI的AI模型啊。它和比特币、以太坊半毛钱关系没有。这事我跟踪了半...

2026-04-02 新闻资讯

213

AI模型是什么意思？一文说清核心概念

AI模型是什么意思？一文说清核心概念

什么是AI模型？ AI模型就是人工智能系统的核心组件。它本质上是一个文件或程序。经过大量数据训练后，它能识别模式、做出预测或自主决策。简单说，它是个“知识包”。比如识...

2026-04-02 新闻资讯

255

HunyuanVideo-Foley：腾讯混元团队开源的一款端到端视频音效生成模型

HunyuanVideo-Foley：腾讯混元团队开源的一款端到端视频音效生成模型

HunyuanVideo-Foley 是腾讯混元团队研发并开源的一款端到端视频音效生成模型，其核心使命是通过人工智能技术，为无声视频自动生成高质量、高同步的音效与背景音乐，打造真正意...

2025-08-29 新闻资讯

1084

Seed-OSS：原生512K长上下文与可控推理的开源大语言模型

Seed-OSS：原生512K长上下文与可控推理的开源大语言模型

一、Seed-OSS是什么？Seed-OSS是字节跳动Seed团队开源的大语言模型系列，标志着字节跳动首次进军开源大模型赛道。这一系列模型以其360亿参数的规模、原生512K超长上下文支持...

2025-08-22 新闻资讯

1052

RynnEC：阿里达摩院开源的一款专为具身智能设计的世界理解模型

RynnEC：阿里达摩院开源的一款专为具身智能设计的世界理解模型

RynnEC是阿里巴巴达摩院开源的一款专为具身智能设计的世界理解模型，属于多模态大语言模型（MLLM）范畴。其核心目标是赋予AI系统对物理世界的深度理解能力，使机器人或智能体...

2025-08-13 新闻资讯

903

RynnVLA-001：基于视频生成与人体轨迹预训练的视觉-语言-动作模型

RynnVLA-001：基于视频生成与人体轨迹预训练的视觉-语言-动作模型

RynnVLA-001是阿里巴巴达摩院自主研发并开源的视觉-语言-动作（Vision-Language-Action, VLA）模型，专为具身智能（Embodied AI）场景设计。该项目通过大规模第一人称视角视频...

2025-08-13 新闻资讯

981

推荐工具

热门网站

热门文章

1 ed2k下载工具有哪些：8款广受好评的ed2k下载工具推荐 2 打开浏览器显示空白页about:blank怎么办？ 3 下划线“_”怎么打？电脑中下划线符号输入方法详解 4 Windows11系统中获取帮助的9种方法详解 5 网页打不开提示“CONNECTION_RESET”的原因及解决方法 6 Word顶端有一条横线怎样删除？删除Word顶部横线的几种方法

图文资讯

图片压缩软件有哪些？5款免费好用的图片压缩软件推荐

软件下载

Cursor
下载
Cursor 是一款创新的AI代码编辑器...
Maye Lite
下载
Maye Lite是一个专注于文件快速...
微信开发者工具
下载
微信开发者工具是一款专门针对于...
图吧工具箱
下载
图吧工具箱是电脑系统和硬件维护...
ShareX
下载
ShareX是一款免费的开源程序，不...
HeyGem
下载
Heygem 是一款专为Windows系统设...