Closed PirateBook1 closed 2 months ago
{ resource_type: 'book', source_name: '平定县里不平定——山西省平定县文革史(下)(致知学术出版社2017年)', author: '郝志东、黎明,致知学术出版社2017年', archive_id: 3, articles: [{ title: '第十章 武斗初起:总站得势、兵团败走东乡', authors: ['郝志东', '黎明'], page_start: 7, page_end: 55, dates: [ { year: 2017, month: 1 } ], }, { title: '第十一章 武斗升级:兵团得势、总站撤退昔阳', authors: ['郝志东', '黎明'], page_start: 57, page_end: 96, dates: [ { year: 2017, month: 1 } ], }, { title: '第十二章 武斗的后果:多人重伤、三人致死', authors: ['郝志东', '黎明'], page_start: 97, page_end: 113, dates: [ { year: 2017, month: 1 } ], }, { title: '第十三章 貌合神离的拉郎配:大联合与平定县革委会的成立', authors: ['郝志东', '黎明'], page_start: 115, page_end: 158, dates: [ { year: 2017, month: 1 } ], }, { title: '第十四章 巩固革命成果:清队、一打三反、清理三种人', authors: ['郝志东', '黎明'], page_start: 159, page_end: 218, dates: [ { year: 2017, month: 1 } ], }, { title: '第十五章 学大寨运动:一首唱走调的歌', authors: ['郝志东', '黎明'], page_start: 219, page_end: 265, dates: [ { year: 2017, month: 1 } ], }, { title: '第十六章 余音袅袅:阶级斗争和逻辑还未抛弃', authors: ['郝志东', '黎明'], page_start: 267, page_end: 294, dates: [ { year: 2017, month: 1 } ], }, { title: '结语 文革反思的困难与必要性', authors: ['郝志东', '黎明'], page_start: 295, page_end: 310, dates: [ { year: 2017, month: 1 } ], }, { title: '附录 人物小传', authors: ['郝志东', '黎明'], page_start: 311, page_end: 322, dates: [ { year: 2017, month: 1 } ], }], ocr: { // ocr 参数 以及 默认参数 // extract_text_from_pdf: false, // 默认为false,如果pdf已经有文本信息就可以设置为true跳过OCR // rec_model: 'ch_ppocr_mobile_v2.0', // rec_backend: 'onnx', // det_model: 'ch_PP-OCRv3_det', // det_backend: 'onnx', // resized_shape: 1496, // 在OCR前resize到这个尺寸,这个参数仅影响识别效果,识别结果的坐标仍是取决于原图像尺寸 // box_score_thresh: 0.3, // min_box_size: 10, auto_vsplit: true, // 用于分页或者处理特殊的排版。如果为 ture,当页面宽度大于高度时,将ocr结果中页面中间(vsplit的位置)分开 vsplit: 0.5, // 如果设置为0.5,ocr结果将从页面宽度的50%处分割,如果为0表示不分割。当auto_vsplit为false且vsplit不为0时,表示任何页面都进行分割。 content_thresholds: [0.0, 0.0, 0.0, 0.0], // 通常需要忽略在页面边缘的页眉,页码或者噪声,数组内4个数值分别表示上下左右相对于宽高的比例, 例如 [0.1,0,0,0] 表示忽略顶部占总高度百分之10的内容 line_merge_threshold: 30, // 单位像素,如果小于这个阈值将被视为同一行 standard_paragraph_merge_strategy_threshold: 0, // 标准段落合并策略,0表示禁用(请在标准和差分策略中二选一),如果是0.2,当一行中最左侧的x坐标超过页面宽度的20%表示新段落,否则向上一行合并 differential_paragraph_merge_strategy_threshold: 30, // 差分段落合并策略,0表示禁用,如果为30,这一行的最左侧的x坐标减去上一行的最左侧的x坐标大于30像素 而且 这一行的最左侧的x坐标减去下一行的最左侧的x坐标大于30像素 时表示这一行是新的段落,否则向上一行合并 }, // ocr_exceptions: { // "3": { // content_thresholds: [0.2, 0.2, 0.1, 0.1], // // ...其他ocr参数(可选) // }, // }], }
1
1