Python3 网络爬虫(五):老板,需要特殊服务吗?

2020年5月15日10:00:43 12 6,932 °C
摘要

API 的使用方法

Python3 网络爬虫(五):老板,需要特殊服务吗?

本文 GitHub https://github.com/Jack-Cherish/PythonPark 已收录,有技术干货文章,整理的学习资料,一线大厂面试经验分享等,欢迎 Star 和 完善。

一、前言

网络爬虫,爬天爬地爬空气。

除了常规的下载文字、图片、音频这些,还能干啥?

还能干的有很多,比如一些「多种多样」的特殊服务

二、特殊服务

特殊服务,就是那些定制化的 API。

API 的概念也很好理解:

比如你想爬一个网站的数据,你需要分析这个网站,要向哪个 url 发起请求,要向服务器传递哪些数据,拿到服务器的返回数据又要怎么解析出想要的数据。

其实,这个过程,就是在「抽象化」出一个 API。

例如,上篇文章的视频下载实战。

对于写好的「视频下载程序」而言,输入就是视频名,输出就是下载好的视频文件。

你可以把「视频下载程序」叫做一个 API,本质上就是一个完成特定任务的接口

当然,这些所谓的 API,并非网站管理者提供给你的,而是你自己通过写程序实现的。

这些 API 是需要自己去挖掘,去发现,属于野生的,可以略带调侃地称呼它们为野生 API。

特殊服务,那可就了不得了

它们不是野生的,而是网站官方提供的官方 API。

这些网站明码标价,提供着各式各样定制化服务

Python3 网络爬虫(五):老板,需要特殊服务吗?

比如,这是「聚合数据」提供的一些查询类 API。

这些常规 API 今天不做讨论,咱们玩一些好玩的。

只会网络爬虫,也能玩转所谓的人工智能算法

三、AI 开放平台

人工智能开放平台,很多家都有。

比较熟知的,腾讯、百度、京东、Face++ 都提供了 AI 开放平台。

腾讯 AI 开放平台:https://ai.qq.com/

百度 AI 开放平台:https://ai.baidu.com/

京东 AI 开放平台:http://neuhub.jd.com/

旷视 AI 开放平台:https://www.faceplusplus.com.cn/

常见的图像技术、语音技术、文字识别,这些网站都有提供。

单看服务数量,百度提供的接口最丰富。

Python3 网络爬虫(五):老板,需要特殊服务吗?

单看图像技术,就眼花缭乱,这么多服务。

如果看服务质量,那应该各有千秋。比如旷视,人脸相关的技术,应该是比较好,毕竟早些年支付宝的人脸识别技术,都是旷视提供技术支持的,底子在那呢。

四、API 的使用方法

API 使用方法很简单,只要有爬虫基础,完全可以轻松应对。

咱们以旷视科技的人脸技术为例进行测试。

首先,创建一个账号

然后,找一个想体验的服务,咱先试试美颜。这年头,没有美颜还真不敢上镜。

旷视科技提供了现成的功能体验。

美颜美型:https://www.faceplusplus.com.cn/face-beautify/

分为美颜和美型,我的理解就是磨皮滤镜加瘦脸,看一下美颜效果。

Python3 网络爬虫(五):老板,需要特殊服务吗?

左边是美颜前,右边是美颜后,拖拽中间的竖栏,可以调节查看。

下面有很多备选图片,你可以挨个翻牌子,看效果。都不喜欢,也可以点击自定义,上传自己想测试的图片。

这是通过 web 体验服务,如果想嵌入自己的程序里,那就需要学习如何使用这个 API 了。

登录账号,选择控制台,然后创建一个应用,选择「试用」​类型。​

Python3 网络爬虫(五):老板,需要特殊服务吗?

填写一些信息后,就会生成一个 API KeyAPI Secret,这两个是使用 API 接口要用到的参数。

相当于你的个人账号和密码。

在控制台,有各种服务的使用说明,比如人脸美颜。

Beautify API v2:https://console.faceplusplus.com.cn/documents/134252584

这个文档,有详细的接口描述,根据这些描述,就可以写代码。

Python3 网络爬虫(五):老板,需要特殊服务吗?

可以看到请求 POST 请求,图片可以是以 URL、二进制文件或 base64 编码上传。

瞧,这就是我之前提到过的,POST 请求的内容,除了是一些文字内容,还可以是一张图片。

根据手册编写代码:

你需要填写自己的 AK 和 SK,并下载一张图片。

图片地址:https://cuijiahua.com/wp-content/uploads/2020/05/test_1.png

API 接口返回的数据是 base64 的二进制文件,需要解码,运行结果:

Python3 网络爬虫(五):老板,需要特殊服务吗?

效果还不错吧!

除了美颜,还有很多服务,人脸检测、人脸识别、人脸关键点等等。

Python3 网络爬虫(五):老板,需要特殊服务吗?

人脸关键点就是在脸上画一堆点,这有什么用?

一个比较成熟的例子就是虚拟主播。

Python3 网络爬虫(五):老板,需要特殊服务吗?

看着还不错吧?

AI 开放平台提供了丰富的 AI 领域的基础能力,怎么用,用来干什么,就看自己的想象力了。​

当然,这些免费试用的 API 接口有很多限制,比如不能请求太快等等。

想要 API 提供性能更好,QPS 更大的优质服务,那就得充钱了。

老板,加个钟

五、最后

这种 API 接口也可以用来清晰数据,训练自己的网络模型,花点小钱,清晰一批数据,真香!

PS:文中出现的所有代码,均可在我的 Github 上下载:点击查看

Python3 网络爬虫(五):老板,需要特殊服务吗?

weinxin
微信公众号
分享技术,乐享生活:微信公众号搜索「JackCui-AI」关注一个在互联网摸爬滚打的潜行者。
Jack Cui

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:12   其中:访客  8   博主  4

    • avatar 擦擦擦 来自天朝的朋友 火狐浏览器 Windows 10 河南省郑州市 联通 1

      大佬,文本、图片、音频都讲完了,后面准备讲啥?

        • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Mac OS X 10_14_4 北京市 百度网讯科技联通节点

          @擦擦擦 模拟登录、验证码啥的,挺多的,慢慢写了。

            • avatar 擦擦擦 来自天朝的朋友 火狐浏览器 Windows 10 河南省郑州市 联通 1

              @Jack Cui 期待,翘首以盼,嗷嗷待哺,急不可耐

          • avatar BU.ZAI 来自天朝的朋友 谷歌浏览器 Windows 7 广东省广州市 电信 1

            期待更新

            • avatar 99ing 来自天朝的朋友 谷歌浏览器 Windows 10 江西省 联通 2

              请问博主为啥得到的回应是MISSING_ARGUMENTS,其他都是复制你的?

                • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Mac OS X 10_14_4 北京市 百度网讯科技联通节点

                  @99ing 你的key确定没有问题吗?

                • avatar zuje 来自天朝的朋友 谷歌浏览器 Windows 10 江西省吉安市 移动 0

                  我本地测试,不知道什么原因,只有在 line48 后面 加上print(html) ,才能返回正常结果,不然就报错:KeyError: ‘result’。
                  博主知道原因吗

                    • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Mac OS X 10_14_4 北京市 百度网讯科技联通节点

                      @zuje 返回结果的结构变了,自己解析下。

                    • avatar OMG 来自天朝的朋友 谷歌浏览器 Windows 10 陕西省西安市 电信 1

                      之前的我:大佬,并发数超过限制该怎么办?
                      后来的我:多运行几次就好了 :roll: 可惜没办法撤回

                        • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 10 北京市 中国电信北京研究院

                          @OMG 哈哈~

                        • avatar leyuxuan 来自天朝的朋友 谷歌浏览器 Windows 10 广东省深圳市 电信 2

                          https://jingyan.baidu.com/article/1e5468f9e28ed0084861b723.html
                          期待

                          • avatar 来自天朝的朋友 谷歌浏览器 Windows 10 河北省保定市 联通 0

                            调用requests.post()方法时一直报ValueError: check_hostname requires server_hostname错误,请问这是为什么呀?代码检查都对。。网上有人说是requests库的最新的版本问题,降低版本也不行。。