文章来源: 学法网 xuefa.com
周末被隔离,闲来无事,突发奇想,纯属娱乐! 一、算法基础 猜想,司法部公布的2018年3月和8月通过法考人员名单中,证书编号的6-11位共6位数字为各区县身份证前6位,所以可以通过切片提取证书编号6-11位来统计在各区县报名考生通过法考的人数,并可以通过证书编号第1位识别A证和C证。 二、统计过程 1.导入基础数据(司法部官网发布的3月和8月通过人员两个表合为一个表); 2.导入身份证前6位对应的区县查询表(网上下载)并转换为数据字典; 3.用数据列表的形式对数据字典关键字进行整理,替代多余关键字; 4.对基础数据中的证书编号进行切片,识别A证编号和C证编号分别存入不同列表,并提取出中间6位存入另一列表; 5.通过collection库统计A证和C证每个6位编号(可代表各区县)的数量; 6.遍历查询表对应的数据字典以及统计结果的数据字典,进行替代,产生两个新的数据字典分别对应A证和C证的统计结果; 7.存入文件。 部分代码截图: 三、结果截图 部分结果: 本人所在县级市18年通过人数为:86人,地级市18年通过人数为:562人。 四、误差分析 经过验算,A证人数共101329人,丢包达到了8697个,C证人数共12780人,丢包达到了726个。丢包可能的原因为:某些证书编号的中间6位查询表中无法找到,导致数据丢包,如840000没有对应的区县。另外,可能因为本人能力素质有限,算法可能存在问题导致丢包。 |
最新评论
兄弟 我写得很清楚是报名地
额 这还不是爬虫 没有用到爬虫的库
我看行
我看行,拜读了你的文章,发现貌似你曾经是我同行。。幸会幸会
过奖了 只是python初学者
和楼主比不了,我是水货
羡慕老哥跟着改革的大潮转身了,在里面 谁会在意你会什么适合干什么呢 对吧