目录

AaronJny

诗酒繁华,书剑天涯。

标签: 爬虫 (3)

在kindle上阅读网络小说的正确方法——Kindle网文助手

起源 kindle 是个好东西啊,如果长时间阅读的话,kindle 的体验远胜于手机、电脑。亚马逊上有丰富的 kindle 电子书资源,但很遗憾,亚马逊上没有网络小说。手机起点又不支持推送到 kindle 阅读,如果偶尔先看看网文的话,那是真的有点淡疼…… 于是,就抽出几天零碎时间,写了个简单的小工具,我把它叫做 Kindle 网文助手。支持从网络上下载网络小说,并推送到 kindle 上阅读。 请注意,此项目不提倡盗版阅读,只因为手机起点看书费眼,也没有推送到 kindle 的途径,才萌生想法编写此项目。没有直接爬起点网站,是嫌起点反爬太多,太麻烦了(毕竟起点要面对那么多盗版网站的爬虫)。网文作者写书不易,有能力的朋友尽量订阅支持一下。 推荐如下操作: 选择一本想看的书 xxx => 打开起点,找到 xxx => 自动订阅 => 打开 kindle 网文助手,缓存 xxx => 推送到 kindle 阅读 如果真的没有闲钱,也请注册一下起点的账号,加一下收藏,投一下免费的推荐票,为你喜欢的小说点赞。写手不易,且行且珍惜。 随便写写的极简版本,比较简陋,凑合着用....

从零开始编写一个宠物识别系统(爬虫、模型训练和调优、模型部署、Web服务)

心血来潮,想从零开始编写一个相对完整的深度学习小项目。想到就做,那么首先要考虑的问题是,写什么? 思量再三,我决定写一个宠物识别系统,即给定一张图片,判断图片上的宠物是什么。宠物种类暂定为四类——猫、狗、鼠、兔。之所以想到做这个,是因为在不使用公开数据集的情况下,宠物图片数据集获取的难度相对低一些。 小项目分为如下几个部分: 爬虫。从网络上下载宠物图片,构建训练用的数据集。 模型构建、训练和调优。鉴于我们的数据比较少,这部分需要做迁移学习。 模型部署和 Web 服务。将训练好的模型部署成 Web 接口,并使用 Vue.js + Element UI 编写测试页面。 好嘞,开搞吧! 本文涉及到的所有代码,均已上传到 GitHub: pets_classifer (https://github.com/AaronJny/pets_classifer) 一、爬虫 训练模型肯定是需要数据集的,那么数据集从哪来?因为是从零开始嘛,假设我们做的这个问题,业内没有公开的数据集,我们需要自己制作数据集。 一个很简单的想法是,利用搜索引擎搜索相关图片,使用爬虫批量下载,然后人工去除不正确的图片。举个....

如何构建一个自己的代理ip池

撰写于2019年2月21日,由我的csdn blog个上迁移而来。 前言 对于爬虫来说,当你的访问频率达到了目标网站的预警值时,就可能触发目标网站的反爬机制。而封禁访问者ip就是很常见的一个反爬机制。 当ip被封禁后,从此ip发出的请求将不能得到正确的响应。这种时候,我们就需要一个代理ip池。 什么是代理ip池? 通俗地比喻一下,它就是一个池子,里面装了很多代理ip。它有如下的行为特征: 1.池子里的ip是有生命周期的,它们将被定期验证,其中失效的将被从池子里面剔除。 2.池子里的ip是有补充渠道的,会有新的代理ip不断被加入池子中。 3.池子中的代理ip是可以被随机取出的。 这样,代理池中始终有多个不断更换的、有效的代理ip,且我们可以随机从池子中取出代理ip,然后让爬虫程序使用代理ip访问目标网站,就可以避免爬虫被ban的情况。 今天,我们就来说一下如何构建自己的代理ip池。而且,我们要做一个比较灵活的代理池,它提供两种代理方式: 1.每次都通过http接口提取一个随机代理ip,然后在爬虫中使用此代理ip(大部分代理ip池服务都是这种形式) 2.使用squid3代理做请求转....