存储和操作n维数据的难题谷歌用一个开源软件库解决了
存储和操作n维数据的难题谷歌用一个开源软件库解决了
存储和操作n维数据的难题谷歌用一个开源软件库解决了,杭州软件培训,声卡录音软件,驾校管理软件TensorStore 是专为存储和操作 n 维数据而设计的开源软件库。
计算机科学和机器学习 (ML) 的许多应用都需要处理跨坐标系的多维数据集,并且单个数据集可能也需要存储 TB 或 PB 的数据。另一方面,使用此类数据集也具有挑战性,因为用户可能会以不规则的间隔和不同的规模读取和写入数据,通常还会执行大量的并行工作。
为了解决上述问题,谷歌开发了一个开源的 C++ 和 Python 软件库 TensorStore,专为存储和操作 n 维数据而设计。谷歌 AI 负责人 Jeff Dean 也在推特上发文表示 TensorStore 现已正式开源。
原生支持多种存储系统,包括谷歌云存储、本地和网络文件系统、HTTP 服务器和内存存储;
支持读 / 写缓存和事务,具有很强的原子性、隔离性、一致性和持久性(ACID)特性;
TensorStore 已被用于解决科学计算中的工程挑战,还被用于创建大型机器学习模型,例如用来管理 PaLM 在分布式训练期间的模型参数(检查点)。
TensorStore 提供了一个简单的 Python API 用于加载和操作大型数组数据。例如,下面的代码创建了一个 TensorStore 对象,该对象代表一个 56 万亿体素的苍蝇大脑 3D 图像,并允许访问 NumPy 数组中 100x100 的图像 patch 数据:
值得注意的是,该程序在访问特定的 100x100 patch 之前,不会访问内存中的实际数据,因此可以加载和操作任意大的基础数据集,而无需将整个数据集存储在内存中。TensorStore 使用与标准 NumPy 基本相同的索引和操作语法。
此外,TensorStore 还为高级索引功能提供广泛支持,包括对齐、虚拟视图等。
众所周知,分析和处理大型数据集需要大量的计算资源,通常需要分布在多个机器上的 CPU 或加速器内核的并行化来实现。因此,TensorStore 的一个基本目标是实现并行处理,达到既安全又高性能的目的。事实上,在谷歌数据中心内的测试中,他们发现随着 CPU 数量的增加,TensorStore 读写性能几乎呈线性增长:
在谷歌云存储 (GCS) 上对 zarr 格式数据集的读写性能,读和写性能与计算任务的数量几乎成线性增长。
TensorStore 还提供了可配置的内存缓存和异步 API,以允许读写操作在程序完成其他工作时在后台继续执行。为了使 TensorStore 的分布式计算与数据处理工作流兼容,谷歌还将 TensorStore 与 Apache Beam 等并行计算库集成。
示例 1 语言模型:最近一段时间,机器学习领域出现了一些 PaLM 等高级语言模型。这些模型包含数千亿个参数,在自然语言理解和生成方面表现出惊人的能力。不过这些模型对计算设施提出了挑战,特别是,训练一个像 PaLM 这样的语言模型需要数千个 TPU 并行工作。
其中有效地读取和写入模型参数是训练过程面临的一个问题:例如训练分布在不同的机器上,但参数又必须定时的保存到 checkpoint 中;又比如单个训练必须仅读取特定参数集,以避免加载整个模型参数集(可能是数百 GB)所需的开销。
当保存 checkpoint 时,参数以 zarr 格式写入,块网格进一步被划分,以用于在 TPU 上划分参数网格。主机为分配给该主机的 TPU 的每个分区并行写入 zarr 块。使用 TensorStore 的异步 API,即使数据仍被写入持久存储,训练也会继续进行。当从 checkpoint 恢复时,每个主机只读取分配给该主机的分区块。
示例 2 大脑 3D 映射:突触分辨连接组学的目标是在单个突触连接水平上绘制动物和人脑的连线。完成这一目标需要在毫米或更大的视野范围内以极高的分辨率 (纳米级) 对大脑进行成像,由此产生的数据大小达到 PB 级。然而,即使是现在,数据集也面临着存储、处理等方面的问题,即使是单个大脑样本也可能需要数百万 GB 的空间。
谷歌已经使用 TensorStore 来解决与大规模连接组学数据集相关的计算挑战。具体而言,TensorStore 已经开始管理一些连接组学数据集,并将谷歌云存储作为底层对象存储系统。
利用 TensorStore 可以轻松访问和操作底层数据(苍蝇大脑重建)
想要上手一试的小伙伴,可以使用以下方法安装 TensorStore PyPI 包:
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
相关文章
- 英国阻止芯片设计软件公司向中国出售
- 到底哪种识字软件最好用?亲测N种最后我选择了洪恩
- 湖南信科It学校怎么样 在哪里
- 打造便民服务新高地——中国二十二冶集团承建湘潭市民之家项目助力改善民生服务
- 财务管理系统组织企业财务活动软件分享
- 长期赚钱的软件有哪些?什么软件可以天天赚钱
- 专访泛微齐业成:打造全电时代的高效数字化报销费控管理软件
- 充电器不充电时插在插座上会耗电吗?
- 掌中大奖 五款Android手机彩票软件推荐
- 对话未来商业|Cocos CEO林顺:移动端是元宇宙沉浸式体验主场
- 硬盘潜在问题检测工具哪个好
- 发发发发发发_太平洋号
- 安卓模拟器最新排行 逍遥安卓模拟器技术领先最受好评
- 黄金看盘软件哪里下载?方便吗?
- 一款神奇的APP让你走路玩手机也看得见路
- 电视安装HDP直播和枫蜜直播两款应用国庆黄金周看国乒!
- 有没有识别手写字并且转换成文本文字的软件?
- 亿图流程图制作软件做出美观线形图的方法步骤
- 小红书APP被曝光:泄露未成年人隐私推送“色情擦边球”视频距上次被责令整改还不到半年
- 写作你需要一款趁手的工具——智能写作软件「写匠 AIWriter」