原文链接:https://blog.csdn.net/weixin_44648900/article/details/105196981 疫情期间无聊突发奇想想要做一个在线考试系统,目前已完成数据库设计,开始编写爬虫爬取试题数据,目标网站如下,获取内容包括:考点,试题,答案选项,答案,解析。考点字段的获取便于以后系统个性化推荐的需要。🚔 去除网页里获取时候遇到的脏数据 查看网页的时候发现这个东西,可能是他们后台有其他用途,由于直接匹配字段不方便,先把所有网页文本先获取再把class为this_jammer等中内容获取为停用词表,爬取的试题文本去掉这些脏数据就OK了。 下面保存脏数据表的函数 运行初步结果如下: 对文本进行正则匹配获取文本指定字段并保存到数据库 最后结果: