banned-historical-archives / banned-historical-archives.github.io

和谐历史档案馆
https://banned-historical-archives.github.io
249 stars 41 forks source link

#3991

Closed PirateBook1 closed 3 months ago

PirateBook1 commented 3 months ago
{
    resource_type: 'book',
    source_name: '内蒙文革风雷——一位造反派领袖的口述史(明镜出版社2007年)',
    author: '高树华、程铁军,明镜出版社',
    archive_id: 3,
    articles: [{
        title: '代序言——历史不可变造,公理岂容践踏',
        authors: ['刘国凯'],
        page_start: 25,
        page_end: 32,
        dates: [
            { year: 2007, month: 7 }
        ],
    }, {
        title: '前言——我的遗愿',
        authors: ['高树华', '程铁军'],
        page_start: 33,
        page_end: 36,
        dates: [
            { year: 2007, month: 7 }
        ],
    }, {
        title: '第一~第十章',
        authors: ['高树华', '程铁军'],
        page_start: 37,
        page_end: 124,
        dates: [
            { year: 2007, month: 7 }
        ],
    }, {
        title: '第十一~第二十章',
        authors: ['高树华', '程铁军'],
        page_start: 125,
        page_end: 218,
        dates: [
            { year: 2007, month: 7 }
        ],
    }, {
        title: '第二十一~第三十章',
        authors: ['高树华', '程铁军'],
        page_start: 219,
        page_end: 316,
        dates: [
            { year: 2007, month: 7 }
        ],
    }, {
        title: '第三十一~第四十章',
        authors: ['高树华', '程铁军'],
        page_start: 317,
        page_end: 414,
        dates: [
            { year: 2007, month: 7 }
        ],
    }, {
        title: '第四十一~第五十章',
        authors: ['高树华', '程铁军'],
        page_start: 415,
        page_end: 520,
        dates: [
            { year: 2007, month: 7 }
        ],
    }, {
        title: '第五十一~第五十七章',
        authors: ['高树华', '程铁军'],
        page_start: 521,
        page_end: 588,
        dates: [
            { year: 2007, month: 7 }
        ],
    }, {
        title: '后记——英雄何须论成败,自古公道在人心',
        authors: ['程铁军'],
        page_start: 589,
        page_end: 598,
        dates: [
            { year: 2007, month: 2, day: 5 }
        ],
    }, {
        title: '高树华年谱',
        authors: ['高树华', '程铁军'],
        page_start: 599,
        page_end: 600,
        dates: [
            { year: 2007, month: 7 }
        ],
    }],
    ocr: { // ocr 参数 以及 默认参数
            // extract_text_from_pdf: false, // 默认为false,如果pdf已经有文本信息就可以设置为true跳过OCR
            // rec_model: 'ch_ppocr_mobile_v2.0',
            // rec_backend: 'onnx',
            // det_model: 'ch_PP-OCRv3_det',
            // det_backend: 'onnx',
            // resized_shape: 1496, // 在OCR前resize到这个尺寸,这个参数仅影响识别效果,识别结果的坐标仍是取决于原图像尺寸
            // box_score_thresh: 0.3,
            // min_box_size: 10,
            auto_vsplit: true, // 用于分页或者处理特殊的排版。如果为 ture,当页面宽度大于高度时,将ocr结果中页面中间(vsplit的位置)分开
            vsplit: 0.5, // 如果设置为0.5,ocr结果将从页面宽度的50%处分割,如果为0表示不分割。当auto_vsplit为false且vsplit不为0时,表示任何页面都进行分割。
            content_thresholds: [0.0, 0.0, 0.0, 0.0], // 通常需要忽略在页面边缘的页眉,页码或者噪声,数组内4个数值分别表示上下左右相对于宽高的比例, 例如 [0.1,0,0,0] 表示忽略顶部占总高度百分之10的内容
            line_merge_threshold: 30, // 单位像素,如果小于这个阈值将被视为同一行
            standard_paragraph_merge_strategy_threshold: 0, // 标准段落合并策略,0表示禁用(请在标准和差分策略中二选一),如果是0.2,当一行中最左侧的x坐标超过页面宽度的20%表示新段落,否则向上一行合并
            differential_paragraph_merge_strategy_threshold: 30, // 差分段落合并策略,0表示禁用,如果为30,这一行的最左侧的x坐标减去上一行的最左侧的x坐标大于30像素 而且 这一行的最左侧的x坐标减去下一行的最左侧的x坐标大于30像素 时表示这一行是新的段落,否则向上一行合并
        },
    // ocr_exceptions: {
    //     "3": {
    //         content_thresholds: [0.2, 0.2, 0.1, 0.1],
    //         // ...其他ocr参数(可选)
    //     },
    // }],
}

1