爬虫进阶教程:百万英雄答题辅助系统

  • A+
所属分类:网络爬虫
摘要

看了网上很多的教程都是通过OCR识别的,这种方法的有优点在于通用性强。不同的答题活动都可以参加,但是缺点也明显,速度有限,并且如果通过调用第三方OCR,有次数限制。但是使用本教程提到的数据接口。我们能很容易的获取数据,速度快,但是接口是变化的,需要及时更新。

爬虫进阶教程:百万英雄答题辅助系统

一、前言

看了网上很多的教程都是通过OCR识别的,这种方法的优点在于通用性强。不同的答题活动都可以参加,但是缺点也明显,速度有限,并且如果通过调用第三方OCR,有次数限制。但是使用本教程提到的数据接口。我们能很容易的获取数据,速度快,但是接口是变化的,需要及时更新。

二、实战解析

1、背景介绍

爬虫进阶教程:百万英雄答题辅助系统

百万英雄答题是一个最近很火爆的答题软件,答对12题的人,可以平分最后的奖金。奖金不错,笔者参加过几次,不过获得的都是小奖,最后几块钱的那种。对于不难的题目,能够直接百度出答案的题目,如果有个软件辅助实时给出参考,还是一件很舒服的事情。想干就干,走起!

2、先睹为快

先看下部署效果,通过服务器后端处理,通过前端显示,亲测延时3s:

爬虫进阶教程:百万英雄答题辅助系统

为啥做成这样呢?因为这样,别的人也可以通过浏览器进行访问,独乐不如众乐嘛!

Github开源地址:https://github.com/Jack-Cherish/python-spider

3、西瓜视频APP抓包

对于如何抓包,我想应该都会了,我在手机APP抓包教程中有详细讲解,如有不会的,请暂时移步:http://blog.csdn.net/c406495762/article/details/76850843

在比赛答题的时候,我们可以通过抓包,找到这样的接口(点击放大):

爬虫进阶教程:百万英雄答题辅助系统

可以看到,参数如上图所示。其中heartbeat后面的参数是一个随着场次的增加,逐渐增加的一个数,后面其他的例如iid和device_id是每个人的用户信息,在接口的最后,有个rticket参数,这个是一个时间戳,可以通过time.time()模拟。

2018-1-17更新:据朋友反应,url的有效参数只有heartbeat和rticket参数,用户信息可以不填写。

注意:只有在答题直播开始的时候,才能通过接口抓取到数据,没有直播的时候,是获取不到数据的,是乱码。

通过这个接口获取数据,然后对数据进行解析,在通过百度知道索问题,简单高效。有了这个思想,就可以开始写代码了。

获取数据和查找答案就是这样,很简单,代码写的也较为凌乱,大牛可以按照这个思路改一改。

4、网站部署

没做过后端和前端,花了一天时间,现学现卖弄好的,javascript也是现看现用,百度的程序,调试调试而已。可能有很多用法比较low的地方,用法不对,请勿见怪,有大牛感兴趣,可以自行完善。

这是我当时看的一些文章:

Node.js和Socket.IO通信基础:菜鸟学习nodejs--Socket.IO即时通讯

Node.js逐行读取txt文件:Line-Reader

Node.js定时任务:Node-Schedule

后端app.js:

前端index.html:

将这些部署到服务器上。这是我的部署效果:

爬虫进阶教程:百万英雄答题辅助系统

部署好后。使用指令运行Node.js服务:

运行python3脚本:

如果一切都搭建好了,那么这个百万英雄答题辅助系统就可以运行了!

三、总结

  • 本软件仅用于学习交流,请勿用于任何商业用途。
  • 也可以对代码进行简单修改,python打印信息,只在本地查看,无需写入txt文件,部署到服务器上。
  • 代码乱,没有经过优化,还需重构。
  • 我的Github爬虫开源地址:https://github.com/Jack-Cherish/python-spider/
Jack Cui

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:36   其中:访客  21   博主  15

    • avatar 小李子 来自天朝的朋友 谷歌浏览器 Linux 广东省广州市 珠江宽频 1

      顺便说下,文章和网站都好赞,谢谢up分享 :smile:

        • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学四舍(女生)

          @小李子 前端和后端也只是会一点点而已。我用的是wordpress,用的知更鸟主题。自己改的。