#RAG|NLP|Jieba|PDF2WORD# pdf转word-换行问题

文档在生成PDF时,文宁都发生了什么。本文讲解了配置对象、resources对象和content对象的作用,以及字体、宇号、坐标、文本摆放等过程。同时,还解释了为什么PDF转word或转文字都是一行一行的以及为什么页眉页脚的问题会加大识别难度。最后提到了文本的编码和PDF中缺少文档结构标记的问题。PDF转word更像是一种逆向工程。

第三方库pdf转word的痛点-格式不保留

本文着力解决换行问题:

  1. 源文本正常输入,pdf解析第三方库识别出来多余换行符

    原文:“你好”
    识别:“你\n好”
  2. 源文本出现多个换行符,pdf解析第三方库识别出一个换行符

    原文:“你好\n\n\n\n\n\n我是向日葵花子”
    识别:“你好\n我是向日葵花子”

word 转 pdf 经历了什么

文本转换为PDF时,记录的信息

包括:

  1. 位置和大小信息:记录每个文本在页面上的位置和大小。
  2. 字体信息:记录文本所使用的字体名称、大小和样式。
  3. 颜色信息:记录文本的颜色。
  4. 行间距和段落间距:记录文本之间的行间距和段落之间的间距。
  5. 文本属性:记录文本的对齐方式、装饰等其他属性。
  6. 超链接和书签:记录文本中的超链接和书签信息,以实现交互功能。
    这些信息的记录旨在确保在PDF中正确呈现文本内容,并保持文档的原始格式和布局。

pdf文本信息

pdf文本是由文本空间组成的,其中包含:
文本矩阵,定义下一个字形的当前转换。它由文本定位和显示运算符的文本改变。
文本行矩阵,它是当前行开头的文本矩阵的状态。因此,通过使用操作员移动到下一行,可以垂直对齐文本行,而无需手动跟踪行的开始位置。
这些矩阵不会从文本部分持续到文本部分,而是在每个文本部分的开头重置为单位矩阵。 结合字体大小,水平缩放和文本上升,这两个矩阵定义了从文本空间到用户空间的转换。

如何获得pdf信息

大段处理

可以在调用第三方库的过程中加一些小算法,我这里给一点点提示

  1. 读取pdf基本信息
  2. 逐行获取pdf信息
  3. 根据每行的行宽来判断是不是多输出了换行符
  4. 每行即使没有文字只有换行符也要加入到获取的信息中
    这一步可以完成百分之八十的换行格式还原。

获取每行信息的代码:

    with pdfplumber.open(file_path) as pdf:
        for p in pdf.pages:
            # print(p.bbox)
            page_lines = p.extract_text_lines()

接下来就要去分析文档每行的信息,然后利用坐标去处理了,大家可以自己思考下代码怎么写。
在这里插入图片描述

页眉页脚、大小标题

识别处理思路和大段处理一致

小段处理

在这里插入图片描述

通过坐标处理不了两行的小段,特别是开头没有缩进的unstructured文本,这里我们需要加上其他算法。
我使用的是nlp的文本分析进行兜底。
处理流程:

  1. 分析上下文关系优化结构算法: 在获取到文本内容后,可以编写一个分析句子上下文关系的算法来处理文本,对于出现问题的地方进行修正。
    主要用到:
    词性标注(Part-of-Speech Tagging): 词性标注是将句子中的每个词汇标记为其对应的词性(如名词、动词、形容词等)的过程。通过词性标注可以识别句子中各个词汇的语法角色,从而帮助理解句子的结构和含义。
    句法分析(Syntax Parsing): 句法分析是分析句子中各个词汇之间的语法关系,如主谓关系、动宾关系等。通过句法分析可以构建句子的语法树,从而帮助理解句子的结构和语义。
  2. 合并文本: 根据分析结果,将需要合并的部分合并到一起。
  3. 输出结果:输出处理后的文本。
    这一步可以完成到90%的换行格式还原,通过不断优化句法分析的规则,可以逐渐接近100%。

清洗文本

nlp句法分析是分析句子中各个词汇之间的语法关系,因此,像emoji或者其他特殊、对于计算机语义处理无意义的符号保留下来必定对结果产生很大影响,最终合并的效果大打折扣,所以我们需要先对文本进行一个清洗,去掉无意义的符号。
由于我的文档只涉及到emoji这种特殊符号,所以我只进行了emoji的清洗

def remove_emoji(text):
    emoji_pattern = re.compile("["
                               u"\U0001F600-\U0001F64F"  # emoticons
                               u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                               u"\U0001F680-\U0001F6FF"  # transport & map symbols
                               u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                               u"\U00002600-\U000027BF"  # miscellaneous symbols
                               u"\U0001F300-\U0001FAD6"  # additional emoticons
                               "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', text)

句子拆分

按照逗号拆分就可以,然后找到带有换行符号的句子进行进一步的词性标注
注意只取带有换行符的小句,这样可以提高工作效率减少无意义的算法调用

使用split函数即可

词性标注

在这里插入图片描述

为了分析句子语法关系、上下文关系,我们必须先进行词性标注,构建语法树,然后再进行句子分析
这里我直接用的中文nlp库jieba,其他好用的库可以直接替换使用,如果是英文词性标注可以使用ntlk,ntlk也有中文词性标注,但是我中文标注我更喜欢用jieba
jieba的jieba词性标注表我也给大家整理好了
词性标注的代码:

import jieba.posseg as psg
# 分词和词性标注
seg = psg.cut(sentence)
# 定义语法规则
result_list = []
verbs = []
for word, pos in seg:
    # 对句法树进行处理,这里只是简单打印出来,你可以根据需要处理
    print("句法树:", word, pos)
    word_info = {'word': word, 'pos': pos}
    # 将字典添加到列表中
    result_list.append(word_info)
    if pos == 'v':
        verbs.append(word_info)
verbs = [word for word, pos in seg if pos == 'v']

分析上下文关系

词性标注结束后,我们就可以根据语法树分析上下文关系了

merged_sentences = []
for i, sentence in enumerate(sentences):
    if i > 0:
        # 分析上下文关系
        verbs_prev, seg_prev = analyze_context(sentences[i - 1])
        verbs_curr, seg_curr = analyze_context(sentence)
        x = list(seg_prev)
        # 如果前一个句子或当前句子至少有一个含有动词,则进行合并
        if (len(verbs_prev) == 1 and len(verbs_curr) == 0) or (len(verbs_prev) == 0 and len(verbs_curr) == 1):
            merged_sentences[-1] += sentence
        # 如果上一句的最后一个词和下一句的第一个词都是动词,则进行合并
        elif seg_prev[-1] and seg_curr[0] and seg_prev[-1]["pos"] in ['r', 'v'] and seg_curr[0]["pos"] == 'v':
            merged_sentences[-1] += sentence
        # 代词和指示词:如果后一个句子以代词或指示词开头,这可能表明它是对前一个句子的补充。
        elif seg_curr[0]["pos"] in ['r', 'z', 'c'] or seg_curr[0]["word"] in ['这', '那', '其', ...]:
            merged_sentences[-1] += sentence
        # 时间+n
        elif seg_curr[0]["pos"] in ['n'] or seg_prev[0]["pos"] in ['t', 'm', ...]:
            merged_sentences[-1] += sentence
        # 句号和分号:虽然句号和分号通常表示句子的结束,但如果它们后面紧跟的是小写字母或标点符号,可能意味着这是同一句话的一部分。
        elif seg_prev[-1]["word"] in ['。', ';'] and not seg_curr[0]["word"].istitle():
            merged_sentences[-1] += sentence
        # 如果后一个句子的第一个词是“的”并且前一个句子的最后一个词是动词,则进行合并
        elif seg_curr[0] and seg_curr[0]["pos"] == 'm' and seg_prev[-1] and seg_prev[-1]["pos"] == 'v':
            merged_sentences[-1] += sentences[i]
        # 如果后一个句子的第一个词是“的”并且前一个句子的最后一个词是动词,则进行合并
        elif seg_curr[0] and seg_curr[0]["pos"] == 'p' and seg_prev[-1] and seg_prev[-1]["pos"] == 'd':
            merged_sentences[-1] += sentences[i]
            # 3. 如果上一句的最后一个词是标点符号,且下一句的第一个词不是句首发语词,则进行合并
        elif seg_prev[-1]["pos"] == 'x' and seg_curr[0]["pos"] not in ['c', 'r', 'u', 'p', 'm', 'e']:
            merged_sentences[-1] += sentence
            # 4. 如果上一句的最后一个词是名词或动词,且下一句以时间状语或条件状语开头,则进行合并
        elif (seg_prev[-1]["pos"] in {'n', 'vg', 'v'}) and (seg_curr[0]["pos"] in {'f', 'c'}):
            merged_sentences[-1] += sentence
        else:
            merged_sentences.append(sentence)
    else:
        merged_sentences.append(sentence)

我在判断规则的同时,进行了是否合并的判断,这样 我们就得到了合并后的文本merged_sentences
在这里插入图片描述

参考文献

https://www.bilibili.com/video/BV1Vi4y1C71M/?spm_id_from=333.788&vd_source=8c9777cd5733f7f447f766cd5105041b

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/370724.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

五、RHCE--Web服务器

五、RHCE--Web服务器 1、web服务器简介(1)什么是www(2)网址及HTTP简介 2、web服务器的类型(1)仅提供用户浏览的单向静态网页(2)提供用户互动接口的动态网站 3、虚拟主机配置实战3.1 …

sqlserver alwayson部署文档手册

1、ALWAYSON概述 详细介绍参照官网详细文档,我就不在这里赘述了: https://learn.microsoft.com/zh-cn/sql/database-engine/availability-groups/windows/overview-of-always-on-availability-groups-sql-server?viewsql-server-ver16 下图显示的是一个包含一个…

【iOS ARKit】3D人体姿态估计实例

与2D人体姿态检测一样,在ARKit 中,我们不必关心底层的人体骨骼关节点检测算法,也不必自己去调用这些算法,在运行使用 ARBodyTrackingConfiguration 配置的 ARSession 之后,基于摄像头图像的3D人体姿态估计任务也会启动…

LeetCode:292.Nim 游戏

大一开学到现在,我不禁思考一个问题:代码重要吗? 我的答案是,根本不重要,或者说,是次要的。我认为分析问题,和画图是写题的开始,方法的学习,和灵活运用是目的。代码从来…

canvas设置图形各种混合模式,类似photoshop效果

查看专栏目录 canvas实例应用100专栏,提供canvas的基础知识,高级动画,相关应用扩展等信息。canvas作为html的一部分,是图像图标地图可视化的一个重要的基础,学好了canvas,在其他的一些应用上将会起到非常重…

(6)【Python/机器学习/深度学习】Machine-Learning模型与算法应用—使用Adaboost建模及工作环境下的数据分析整理

目录 一、为什么要使用Adaboost建模? 二、泰坦尼克号分析(工作环境) (插曲)Python可以引入任何图形及图形可视化工具 三、数据分析 四、模型建立 1、RandomForestRegressor预测年龄 2、LogisticRegression建模 引入GridSearchCV 引入RandomizedSearchCV 3、Deci…

《区块链简易速速上手小册》第2章:区块链的工作原理(2024 最新版)

文章目录 2.1 分布式账本技术(DLT)2.1.1 DLT基础知识2.1.2 主要案例:供应链管理2.1.3 拓展案例 1:数字身份2.1.4 拓展案例 2:投票系统 2.2 加密和安全性2.2.1 加密技术基础2.2.2 主要案例:比特币交易2.2.3 …

【DC渗透系列】DC-2靶场

arp先扫 ┌──(root㉿kali)-[~] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:6b:ed:27, IPv4: 192.168.100.251 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.100.1 00:50:56:c0:00:08 VMware, In…

Macbook 安装金铲铲之战等 IOS 游戏

前言 Macbook 现在可以玩一下 IOS 系统上的游戏啦,以笔者的 M1 Pro 芯片为例 步骤 一、安装 PlayCover 推荐 Sonama 安装 Nightly 版本 官网地址: https://playcover.io/ Nightly: https://nightly.link/playcover/playcover/workflows/2.nightly_re…

SQL 函数(十二)

SQL 函数(十二) 一、函数分类 1.1 单行函数 单行函数仅对单个行进行运算,并且每行返回一个结果。 常见的函数类型: 字符、数字、日期、转换 1.2 多行函数 多行函数能够操纵成组的行,每个行组给出一个结果&#x…

通过 editplus 批量转换文本编码

有时候需要对文本的编码进行批量转换,文本编辑器 notepad 中的“编码”菜单可以用来转换单个的文档编码,当文档数量多的时候,一个个操作比较繁琐,通过文本编辑器 editplus 软件,可以方便快速地批量修改文本文件的编码&…

帕鲁存档跨云迁服教程

近期一款名为幻兽帕鲁的游戏爆火,以迅雷不及掩耳之势拳打csgo,脚踢dota2,登顶steam同时在线第一名。 由于其独特的个人服务器机制,各大云厂商纷纷响应,腾讯云原价330的4核16G的轻量应用服务器新用户现在最低只要66元一…

GLIP:零样本学习 + 目标检测 + 视觉语言大模型

GLIP 核心思想GLIP 对比 BLIP、BLIP-2、CLIP 主要问题: 如何构建一个能够在不同任务和领域中以零样本或少样本方式无缝迁移的预训练模型?统一的短语定位损失语言意识的深度融合预训练数据类型的结合语义丰富数据的扩展零样本和少样本迁移学习 效果 论文:…

SSL证书的验证过程

HTTPS是工作于SSL层之上的HTTP协议,SSL(安全套接层)工作于TCP层之上,向应用层提供了两个基本安全服务:认证和保密。SSL有三个子协议:握手协议,记录协议和警报协议。其中握手协议实现服务器与客户…

问题:根据全面推进国防和军队现代化的战略安排,_____把人民军队全面建成世界一流军队。 #经验分享#媒体

问题:根据全面推进国防和军队现代化的战略安排,_____把人民军队全面建成世界一流军队。 A、2020年 B、2035年 C、本世纪中叶 D、2045年 参考答案如图所示 问题:判断题:高处作业传递物件应使用绳索,在确认作业下方…

Qt QGraphicsScene 基于视频的绘图

需求: 基于视频进行 图形的绘制。 方案: 上一篇文章分享了如何将视频实时渲染到QGraphicsScene 系统里,并简单讲述了如何进行绘图,但在实际使用时还是发现了一些技巧,现在总结一下。 Qt 基于海康相机 的视频标绘-CSD…

人类的本性,逃不开党同伐异

近几年以来,不知道大家有没有感受到,网络上越来越充满戾气。 无论哪个网站,只要打开评论区,充斥在眼前的总是一片乌烟瘴气。 一言不合就「对线」,动不动一顶帽子扣过去,说话前先「站队」「找友军」&#xf…

博途PLC限幅器(SCL代码)

PLC限幅器详细介绍,可以参考下面文章: https://rxxw-control.blog.csdn.net/article/details/128701050https://rxxw-control.blog.csdn.net/article/details/128701050三菱PLC限幅器 https://rxxw-control.blog.csdn.net/article/details/135212965

C++入门的基础

幸福比傲慢更容易蒙住人的眼睛。 ——大仲马 C入门 1、属于C的关键字1、1、C从何而来1、2、C关键字(C98) 2、命名空间2、1、命名空间的定义2、2、命名空间使用 3、C输入和输出4、缺省参数4、1、缺省参数概念4、2、缺省参数分类 5、函数重载5、1、函数重载概念 6、引用6、1、引用…

PHP框架详解 - symfony框架

首先说一下为什么要写symfony框架,这个框架也属于PHP的一个框架,小编接触也是3年前,原因是小编接触Golang,发现symfony框架有PHP框架的东西也有Golang的东西,所以决定总结一下,有需要的同学可以参看小编的G…