Month: March 2021

python爬取试题信息-保存文本并利用正则表达式获取指定字段并保存mysql数据库

原文链接:https://blog.csdn.net/weixin_44648900/article/details/105196981 疫情期间无聊突发奇想想要做一个在线考试系统,目前已完成数据库设计,开始编写爬虫爬取试题数据,目标网站如下,获取内容包括:考点,试题,答案选项,答案,解析。考点字段的获取便于以后系统个性化推荐的需要。🚔 去除网页里获取时候遇到的脏数据 查看网页的时候发现这个东西,可能是他们后台有其他用途,由于直接匹配字段不方便,先把所有网页文本先获取再把class为this_jammer等中内容获取为停用词表,爬取的试题文本去掉这些脏数据就OK了。 下面保存脏数据表的函数 运行初步结果如下: 对文本进行正则匹配获取文本指定字段并保存到数据库 最后结果:

blueidea

python 解析docx文档的方法,以及利用Python从docx文档提取插入的文本对象和图片

首先安装docx模块,通过pip install docx或者在docx官方链接上下载安装都可以 下面来看下如何解析docx文档:文档格式如下 有3个部分组成 1 正文:text文档 2 一个表格。 3一个插入的文件对象。4 一个图片 这4个部分是我们在docx文档中最常见的几种格式。解析代码如下 import docx def docx_try():     doc=docx.Document(r’E:\py_prj\test.docx’)     for p in doc.paragraphs:         print p.text     for t in doc.tables:         for r in t.rows:             for c in r.cells:                 […]

blueidea

使用phpword获取doc中的表格数据

1. 首先确定使用phpword是可以读取word文档中表格里面的数据, 使用的phpword版本0.17.0 1 composer require “phpoffice/phpword” 2.关键词及包含原理 (这里只做简单概述) 本人做博文喜欢直接贴代码,直接用。可这个不太行啊,因为输入不统一,word格式样式太多,输出也不统一,有的要输出数据,有的要输出word或者html,所以这里就追一下原理(可能不严谨但是便于理解) 关键词 section(部分) : phpword中将word文档分为若干个section(部分) element(元素) : 每个section包含若干个element(元素)、文本、图片,元素分为文本元素、表格元素、其他(未涉及不做讨论) textRun(文本元素) : 每个文本集合包含多个文本 text(文本) : 为字符或者图片 table(表格元素) : 每个表格元素包含多个行 row row(行) : 每个行包含多个列 cell cell(列) : 每个列包含多个textRun(文本元素) 这里没错,就是包含多个文本元素(表格元素也可以但是没人在word表格的某一个格里再来一个表格吧) 各个节点之间的关系图 3.代码实现(本地测试已通)

blueidea

关于word模板导入中OLEObject的二进制文件转图片的方法

很久以前就想要做这个事情,但时间不允许,当然更多的是技术不行,总期待着有现成的解决方案,当然现成的PHPWord可以解决很多事情,但还是遇到的新的问题,如下: 【题文】1.集合<Object: word/embeddings/oleObject1.bin>,<Object: word/embeddings/oleObject2.bin>,则<Object: word/embeddings/oleObject3.bin>( )。A、<Object: word/embeddings/oleObject4.bin>B、<Object: word/embeddings/oleObject5.bin>C、<Object: word/embeddings/oleObject6.bin>D、<Object: word/embeddings/oleObject7.bin>【答案】B【解析】∵<Object: word/embeddings/oleObject8.bin>,∴<Object: word/embeddings/oleObject9.bin>,∵<Object: word/embeddings/oleObject10.bin>,故选B。【结束】 上面是读取word的一种情形,所以就考虑把word文档中的公式都变成图片。 下面是探寻到的方法: 第一步:把word保存为html格式 第二步:用word(或WPS)重新打开html文件,并保存为docx格式文件 经过上面两步就实现了利用Mathtype等公式编辑器编辑的公式转图片的效果,非常好,现在可以读取了,但新的问题又来了,有些公式是利用word直接插入的公式,现在已经变形了!!!,呜呜呜…… 今天查寻资料得知应该可能使用Apache POI解决这个文件读取的问题,但可惜是基于java的

blueidea