Blockify 改写企业 RAG:用 IdeaBlock 取代 Chunking、压缩 40 倍、token 减 3 倍

企业 AI 数据优化新工具 Blockify 5 月 9 日由 akshay_pachaar 整理推广、宣称在 RAG(Retrieval-Augmented Generation)流程中、可把企业数据库压缩 40 倍、查询 token 用量减 3 倍、向量搜索准确率提升 2.3 倍。Blockify 官方 GitHub 说明:产品由 Iternal Technologies 推出、用「IdeaBlock」结构化知识单元取代传统 chunking、并通过去重合并让知识库保持精简、连贯、可治理。

核心概念:用 IdeaBlock 取代传统 chunking

Blockify 的技术设计:

传统做法:把长文件切成固定大小的 chunk、嵌入向量、检索时取 top-k

Blockify 做法:把原始内容转换为 IdeaBlock—XML 结构化知识单元

每个 IdeaBlock 内含:自带问题、可信答案、tag、实体、关键词

相似 IdeaBlock 自动去重合并、知识库不会随内容增长膨胀

传统 chunking 的问题是同一信息可能在多个 chunk 中重复出现、造成检索冗余与 token 浪费;IdeaBlock 通过去重把信息密度提升、同样内容用更小的存储空间表达。

具体效益:压缩 40 倍、token 减 3 倍、准确率升 2.3 倍

Blockify 公布的具体效益指标:

数据压缩:企业数据库缩减至原大小约 2.5%(40 倍压缩)、保留 99% 以上信息

每次查询 token:从约 303 个(传统 chunk)降至约 98 个(IdeaBlock)—3.09 倍效率

向量检索准确率:提升 2.29 倍

整体准确率改善:约 78 倍(含去重与检索改进综合效应)

成本节省试算:1 亿次查询/年、节省 token 成本约 73.8 万美元

78 倍的整体准确率提升是综合效应—去重减少噪音、IdeaBlock 结构化内容对向量检索友善、单次回答 token 数下降同时减少模型出错空间。

整合范围:LlamaIndex、LangChain、Milvus、Cloudflare 等主流框架

Blockify 已整合的开发者工具与基础设施:

RAG 框架:LlamaIndex、LangChain

知识管理:Obsidian

向量数据库:Milvus、Elastic、Supabase

边缘运算:Cloudflare

低代码整合:n8n(通过工作流程模板)

Blockify 的整合策略是「不取代既有 RAG 框架、而是作为前置数据优化层」。开发者可在现有 LlamaIndex 或 LangChain 流程中、用 Blockify 替换原本的 chunking 步骤,其余流程不变。

后续可追踪的具体事件:Blockify GitHub 星数增长与社群采用率、Iternal Technologies 是否就 IdeaBlock 结构申请或披露技术细节(目前标榜「patented ingestion」)、以及主流 RAG 框架是否将类似去重逻辑内建为默认功能。

这篇文章 Blockify 改写企业 RAG:用 IdeaBlock 取代 chunking、压缩 40 倍、token 减 3 倍 最早出现在 链新闻 ABMedia。

© 版权声明
THE END
喜欢就支持一下吧
分享