1 优秀项目汇总

1.1 OmniDocBench

Avatar of opendatalab

opendatalab/OmniDocBench

[CVPR 2025] A Comprehensive Benchmark for Document Parsing and Evaluation

Stars: 725
🍴 Forks: 65
💻 Language: Python
📄 License: Apache License 2.0

里面对比了各种模型在各种 PDF 文档下面的解析情况,可以发现对于手写的如果不是依赖大模型的检测的话,是比较难解析出好的结果,但是对于杂志的解析,MinerU 却可以得很高的分,综合感觉 Qwen 和 MinerU 可以尝试一下。

1.2 awesome-prompts

Avatar of browser-use

browser-use/awesome-prompts

Table of awesome Browser Use prompts

Stars: 819
🍴 Forks: 73
里面收集了各种利用 Browser-Use 的 Prompt,后面可以在 mcp 中尝试一下。

1.3 MegaParse

Avatar of QuivrHQ

QuivrHQ/MegaParse

File Parser optimised for LLM Ingestion with no loss 🧠 Parse PDFs, Docx, PPTx in a format that is ideal for LLMs.

Stars: 7095
🍴 Forks: 391
💻 Language: Python
📄 License: Apache License 2.0
一个开源的对文档解析的工具,看了一下,支持 PPT,Excel,Word 文档,可以看看他们是怎么对 Office 文档进行处理的

1.4 awesome-LLM-resources

Avatar of WangRongsheng

WangRongsheng/awesome-LLM-resources

🧑‍🚀 全世界最好的LLM资料总结(语音视频生成、Agent、辅助编程、数据处理、模型训练、模型推理、o1 模型、MCP、小语言模型、视觉语言模型) | Summary of the world's best LLM resources.

Stars: 5952
🍴 Forks: 578
📄 License: Apache License 2.0

各类 LLM 资源汇总

1.5 CasaOS

Avatar of IceWhaleTech

IceWhaleTech/CasaOS

CasaOS - A simple, easy-to-use, elegant open-source Personal Cloud system.

Stars: 31299
🍴 Forks: 1712
💻 Language: Go
📄 License: Apache License 2.0

提供一键安装各种云服务的程序,并且可以在一个 web 界面中统一进行管理,一键安装脚本中还可以顺便把 Docker 安装了

2 优秀文章

2.1 为什么「上下文检索」是提升 RAG 系统问答准确度的关键?

文章主要讲了在 RAG 中遇到的两个大的问题,chunk 的拆分与查询,当我们 chunk 拆分不合理的时候,容易将连贯的段落拆开,里面提到了将拆开的 chunk 和文章全部上下文交给长上下文模型,来补充上下文,但这样会导致 token 的大量消耗与时间过长问题。

庖丁科技提供了一种新方法:上下文检索方法:该方法通过长上下文重排模型同时对大量文本块进行重排,让文本块在重排阶段获取上下文信息;并通过目录结构模型识别文档的章节目录树,在切分的文本块前加入对应的章节目录,确保文本块的全局信息

2.2 选择一个好的模型

来源: OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南 | Bojie Li

3 工具

3.1 Ech0

类似于 Memos 的记录软件,可以用于个人的朋友圈,日记记录等等。

版权声明

作者: Yao

链接: https://yaoliu.site/posts/weekly-001/

许可证: CC BY-NC-SA 4.0

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License. Please attribute the source, use non-commercially, and maintain the same license.

评论

开始搜索

输入关键词搜索文章内容

↑↓
ESC
⌘K 快捷键