MinerU:开源高质量数据提取工具 支持PDF/网页/多格式电子书提取 -资源熊

MinerU:开源高质量数据提取工具 支持PDF/网页/多格式电子书提取

工具介绍

MinerU是一款由上海人工智能实验室OpenDataLab团队开发的开源高质量数据提取工具,专注于从复杂PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式和表格的多模态PDF转化为Markdown格式(如markdown、json),且具备高精度解析工具链,支持多种输入模型,支持自动识别乱码、转换公式为LaTex、保留文档结构,支持176种语言的准确识别,适用于学术、财务、法律等领域,兼容Windows/Linux/Mac平台。

工具地址

网站:https://opendatalab.com/OpenSourceTools/Extractor/PDF

GitHub:https://github.com/opendatalab/MinerU

温馨提示:本文最后更新于2024-09-18 23:11:33,某些文章具有时效性,若有错误或已失效,请在下方留言或联系QQ3224592136
© 版权声明
THE END
喜欢就支持一下吧
点赞9赞赏 分享
猜你感兴趣
评论 抢沙发

请登录后发表评论

    暂无评论内容

Ctrl+D收藏我们吧! 或 发现更多