企业 AI 数据优化新工具 Blockify 5 月 9 日由 akshay_pachaar 整理推广、宣称在 RAG(Retrieval-Augmented Generation)流程中、可把企业数据库压缩 40 倍、查询 token 用量减 3 倍、向量搜索准确率提升 2.3 倍。Blockify 官方 GitHub 说明:产品由 Iternal Technologies 推出、用「IdeaBlock」结构化知识单元取代传统 chunking、并通过去重合并让知识库保持精简、连贯、可治理。
核心概念:用 IdeaBlock 取代传统 chunking
Blockify 的技术设计:
传统做法:把长文件切成固定大小的 chunk、嵌入向量、检索时取 top-k
Blockify 做法:把原始内容转换为 IdeaBlock—XML 结构化知识单元
每个 IdeaBlock 内含:自带问题、可信答案、tag、实体、关键词
相似 IdeaBlock 自动去重合并、知识库不会随内容增长膨胀
传统 chunking 的问题是同一信息可能在多个 chunk 中重复出现、造成检索冗余与 token 浪费;IdeaBlock 通过去重把信息密度提升、同样内容用更小的存储空间表达。
具体效益:压缩 40 倍、token 减 3 倍、准确率升 2.3 倍
Blockify 公布的具体效益指标:
数据压缩:企业数据库缩减至原大小约 2.5%(40 倍压缩)、保留 99% 以上信息
每次查询 token:从约 303 个(传统 chunk)降至约 98 个(IdeaBlock)—3.09 倍效率
向量检索准确率:提升 2.29 倍
整体准确率改善:约 78 倍(含去重与检索改进综合效应)
成本节省试算:1 亿次查询/年、节省 token 成本约 73.8 万美元
78 倍的整体准确率提升是综合效应—去重减少噪音、IdeaBlock 结构化内容对向量检索友善、单次回答 token 数下降同时减少模型出错空间。
整合范围:LlamaIndex、LangChain、Milvus、Cloudflare 等主流框架
Blockify 已整合的开发者工具与基础设施:
RAG 框架:LlamaIndex、LangChain
知识管理:Obsidian
向量数据库:Milvus、Elastic、Supabase
边缘运算:Cloudflare
低代码整合:n8n(通过工作流程模板)
Blockify 的整合策略是「不取代既有 RAG 框架、而是作为前置数据优化层」。开发者可在现有 LlamaIndex 或 LangChain 流程中、用 Blockify 替换原本的 chunking 步骤,其余流程不变。
后续可追踪的具体事件:Blockify GitHub 星数增长与社群采用率、Iternal Technologies 是否就 IdeaBlock 结构申请或披露技术细节(目前标榜「patented ingestion」)、以及主流 RAG 框架是否将类似去重逻辑内建为默认功能。
这篇文章 Blockify 改写企业 RAG:用 IdeaBlock 取代 chunking、压缩 40 倍、token 减 3 倍 最早出现在 链新闻 ABMedia。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复



