自动化工具：将PDF论文转换为Markdown格式|附代码-CSDN博客

在学术研究和文档处理中，我们经常需要从PDF文件中提取内容。PDF格式虽然便于阅读，但其封闭性使得内容提取和再利用变得困难。为此，我开发了一个强大的自动化工具，能够将PDF论文准确转换为结构化的Markdown格式。

工具概述

这个工具通过三步流程实现PDF到Markdown的转换：

高质量PDF转图像：将PDF每页转换为高分辨率图像
OCR文本识别与结构分析：识别图像中的文本内容和文档结构
Markdown生成与合并：创建结构化文档并合并为完整文件

完整代码

import os
import shutil

import fitz  # PyMuPDF
from PIL import Image
import argparse
import logging
from tqdm import tqdm
from paddleocr import PPStructureV3
import re

# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger('PDF2Markdown')


def convert_pdf_to_png(pdf_path, output_dir, dpi=300, zoom_factor=4.0, image_format='PNG',
                       grayscale=False, crop_to_content=False, quality=95):
    """
    将PDF文件转换为高质量的PNG图像

    参数:
        pdf_path (str): PDF文件路径
        output_dir (str): 输出目录
        dpi (int): 输出图像DPI (默认300)
        zoom_factor (float): 缩放因子，提高图像质量 (默认4.0)
        image_format (str): 输出格式 ('PNG', 'JPEG', 'TIFF')
        grayscale (bool): 是否转换为灰度图像
        crop_to_content (bool): 是否裁剪到内容区域
        quality (int): 输出质量 (1-100)
    """
    try:
        # 验证输入路径
        if not os.path.isfile(pdf_path):
            raise FileNotFoundError(f"PDF文件不存在: {pdf_path}")

        # 创建输出目录
        os.makedirs(output_dir, exist_ok=True)

        # 打开PDF文件
        pdf_document = fitz.open(pdf_path)
        total_pages = len(pdf_document)

        print(f"开始转换: {os.path.basename(pdf_path)}")
        print(f"总页数: {total_pages}")
        print(f"输出DPI: {dpi}, 缩放因子: {zoom_factor}, 格式: {image_format}")

        # 创建进度条
        pbar = tqdm(total=total_pages, desc="转换进度", unit="页")

        for page_num in range(total_pages):
            page = pdf_document.load_page(page_num)

            # 计算缩放矩阵
            zoom_matrix = fitz.Matrix(zoom_factor, zoom_factor)

            # 获取页面内容边界（用于裁剪）
            if crop_to_content:
                content_rect = page.get_textpage().boundrect
                if not content_rect.is_empty:
                    clip_rect = content_rect * zoom_matrix
                else:
                    clip_rect = page.rect * zoom_matrix
            else:
                clip_rect = page.rect * zoom_matrix

            # 渲染页面为像素图
            pix = page.get_pixmap(matrix=zoom_matrix, clip=clip_rect, alpha=False)

            # 转换为PIL图像
            img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)

            # 转换为灰度
            if grayscale:
                img = img.convert("L")

            # 生成输出文件名
            base_name = os.path.splitext(os.path.basename(pdf_path))[0]
            output_path = os.path.join(output_dir, f"{base_name}_page_{page_num + 1:03d}.{image_format.lower()}")

            # 保存图像
            if image_format == 'PNG':
                img.save(output_path, format='PNG', compress_level=2)
            elif image_format == 'JPEG':
                img.save(output_path, format='JPEG', quality=quality, subsampling=0)
            elif image_format == 'TIFF':
                img.save(output_path, format='TIFF', compression='tiff_lzw')
            else:
                raise ValueError(f"不支持的图像格式: {image_format}")

            pbar.update(1)

        pbar.close()
        pdf_document.close()
        print(f"PNG转换完成! 输出目录: {output_dir}")
        return output_dir, base_name

    except Exception as e:
        print(f"转换过程中出错: {str(e)}")
        raise


def process_images_to_markdown(image_dir, base_name):
    """
    处理PNG图像并生成Markdown文件

    参数:
        image_dir (str): 包含PNG图像的目录
        base_name (str): PDF文件的基本名称
    """
    try:
        # 初始化PPStructureV3
        print("初始化PPStructureV3...")
        pipeline = PPStructureV3()

        # 创建Markdown输出目录
        md_output_dir = os.path.join(image_dir, "markdown")
        os.makedirs(md_output_dir, exist_ok=True)

        # 获取所有PNG文件并按页码排序
        png_files = sorted(
            [f for f in os.listdir(image_dir) if f.endswith('.png') and base_name in f],
            key=lambda x: int(re.search(r'page_(\d+)', x).group(1)))

        print(f"找到 {len(png_files)} 个PNG文件进行处理")
        # 处理每个图像文件
        pbar = tqdm(png_files, desc="OCR处理进度", unit="页")

        for png_file in pbar:
            png_path = os.path.join(image_dir, png_file)
            output = pipeline.predict(png_path)

            # 获取页码
            page_num = re.search(r'page_(\d+)', png_file).group(1)
            md_filename = f"{base_name}_page_{page_num}.md"
            md_path = os.path.join(md_output_dir, md_filename)

            # 保存为Markdown
            if output:
                output[0].save_to_markdown(save_path=md_path)
            pbar.set_postfix_str(f"已保存: {md_filename}")

            print(f"Markdown文件生成完成! 输出目录: {md_output_dir}")
        return md_output_dir, base_name

    except Exception as e:
        print(f"OCR处理过程中出错: {str(e)}")
        raise


def merge_markdown_files(md_dir, base_name):
    """
    合并所有Markdown文件

    参数:
        md_dir (str): 包含Markdown文件的目录
        base_name (str): PDF文件的基本名称
    """
    try:
        # 获取所有Markdown文件并按页码排序
        md_files = sorted(
            [f for f in os.listdir(md_dir) if f.endswith('.md') and base_name in f],
            key=lambda x: int(re.search(r'page_(\d+)', x).group(1)))

        if not md_files:
            raise FileNotFoundError("未找到Markdown文件")

        # 创建合并后的Markdown文件
        merged_filename = f"{base_name}_combined.md"
        merged_path = os.path.join(os.path.dirname(md_dir), merged_filename)

        with open(merged_path, 'w', encoding='utf-8') as outfile:
            for md_file in md_files:
                md_path = os.path.join(md_dir, md_file)
                with open(md_path, 'r', encoding='utf-8') as infile:
                    outfile.write(infile.read())
                    outfile.write("\n\n")  # 添加分页符

        print(f"Markdown文件合并完成! 输出文件: {merged_path}")
        return merged_path

    except Exception as e:
        print(f"合并Markdown文件时出错: {str(e)}")
        raise


def main():
    parser = argparse.ArgumentParser(description='将PDF文件转换为高质量PNG图像并生成Markdown')
    parser.add_argument('--input_pdf', type=str, required=True, help='输入PDF文件路径')
    parser.add_argument('--output_dir', type=str, required=True, help='输出目录路径')
    parser.add_argument('--dpi', type=int, default=300, help='输出图像DPI (默认300)')
    parser.add_argument('--zoom', type=float, default=4.0, help='缩放因子 (默认4.0)')
    parser.add_argument('--format', type=str, default='PNG', choices=['PNG', 'JPEG', 'TIFF'],
                        help='输出图像格式 (默认PNG)')
    parser.add_argument('--grayscale', action='store_true', help='转换为灰度图像')
    parser.add_argument('--crop', action='store_true', help='裁剪到内容区域')
    parser.add_argument('--quality', type=int, default=95, choices=range(1, 101),
                        metavar="[1-100]", help='输出质量 (默认95)')
    parser.add_argument('--skip_png', action='store_true', help='跳过PNG转换步骤（如果PNG已存在）')
    parser.add_argument('--skip_ocr', action='store_true', help='跳过OCR步骤（如果Markdown已存在）')

    args = parser.parse_args()

    try:
        # 步骤1: 将PDF转换为PNG
        base_name = os.path.splitext(os.path.basename(args.input_pdf))[0]
        png_dir = args.output_dir
        if os.path.exists(png_dir):
            try:
                shutil.rmtree(png_dir)
            except Exception as e:
                print(f"删除失败: {str(e)}")
        if not args.skip_png:
            print("开始PDF转PNG转换...")
            png_dir, base_name = convert_pdf_to_png(
                pdf_path=args.input_pdf,
                output_dir=args.output_dir,
                dpi=args.dpi,
                zoom_factor=args.zoom,
                image_format=args.format,
                grayscale=args.grayscale,
                crop_to_content=args.crop,
                quality=args.quality
            )
        else:
            print("跳过PNG转换步骤")
            if not os.path.exists(png_dir):
                raise FileNotFoundError(f"输出目录不存在: {png_dir}")

        # 步骤2: 处理PNG图像生成Markdown
        if not args.skip_ocr:
            print("开始OCR处理...")
            md_dir, base_name = process_images_to_markdown(png_dir, base_name)
        else:
            print("跳过OCR处理步骤")
            md_dir = os.path.join(png_dir, "markdown")
            if not os.path.exists(md_dir):
                raise FileNotFoundError(f"Markdown目录不存在: {md_dir}")

        # 步骤3: 合并Markdown文件
        print("开始合并Markdown文件...")
        merged_path = merge_markdown_files(md_dir, base_name)

        print(f"处理完成! 最终输出文件: {merged_path}")

    except Exception as e:
        print(f"处理失败: {str(e)}")
        exit(1)


if __name__ == "__main__":
    main()

核心功能与技术亮点

1. 高质量的PDF渲染技术

def convert_pdf_to_png(pdf_path, output_dir, dpi=300, zoom_factor=4.0, 
                       image_format='PNG', grayscale=False, crop_to_content=False, quality=95):
    # 使用PyMuPDF进行高质量渲染
    zoom_matrix = fitz.Matrix(zoom_factor, zoom_factor)
    pix = page.get_pixmap(matrix=zoom_matrix, clip=clip_rect, alpha=False)
    
    # 内容感知裁剪
    if crop_to_content:
        content_rect = page.get_textpage().boundrect
        clip_rect = content_rect * zoom_matrix

支持高达600+ DPI的超高分辨率输出
4倍缩放因子确保文本清晰度
智能内容裁剪功能去除多余白边
多格式支持：PNG（无损）、JPEG（高质量）、TIFF（压缩）

2. 先进的OCR与结构识别

def process_images_to_markdown(image_dir, base_name):
    # 使用PaddleOCR的PPStructureV3模型
    pipeline = PPStructureV3()
    output = pipeline.predict(png_path)
    
    # 保存为Markdown
    output[0].save_to_markdown(save_path=md_path)

基于PaddleOCR的深度学习模型
识别文本、表格、标题等复杂结构
保留原始文档的层次结构
自动处理多栏排版和图文混排

3. 智能合并与后处理

def merge_markdown_files(md_dir, base_name):
    # 按页码排序并合并
    md_files = sorted([...], key=lambda x: int(re.search(r'page_(\d+)', x).group(1)))
    
    # 添加分页符
    outfile.write("\n\n")

智能页码识别和排序
添加分页符保持原始布局
保留所有识别内容的结构
生成统一的Markdown文件

使用指南

基本命令

python pdf_to_markdown.py \
  --input_pdf research_paper.pdf \
  --output_dir ./output \
  --dpi 400 \
  --zoom 3.5 \
  --crop \
  --quality 100

或

python pdf_to_markdown.py --input_pdf research_paper.pdf  --output_dir dataout --dpi 300  --zoom 4.0 --format PNG --quality 95

在这里插入图片描述

高级选项

参数	说明	默认值
`--grayscale`	灰度转换（减少文件大小）	False
`--skip_png`	跳过PNG转换（使用现有图像）	False
`--skip_ocr`	跳过OCR步骤（使用现有Markdown）	False
`--format`	输出格式 (PNG/JPEG/TIFF)	PNG
`--quality`	图像质量 (1-100)	95