爬虫什么是爬虫?简单的来,使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。现在很多都是数据抓取爬虫,其实爬虫还可以模拟人为的执行一些操作,或者是重复性劳动。主要是效率,会比人实际操作高效。

什么是webmagic前点评网大牛黄亿华开发,代码质量极佳,参考了业界最优秀的爬虫Scrapy设计。在码云上抓取框架排名总第二,最优质项目排名第一。webmagic是一个开源的Java垂直爬虫框架,目

前言抓取的时候有些场景,需要把整个页面截图下载下来。网上不少资源,不过文章水平参差不齐,实现出来的效果有人不尽人意。于是摸索了一番,总结了一个截图生成效果比较好的几个框架。同时封装成更多方法使用工具类

前言工欲善其事必先利其器作为日常办公的必需品,电脑发挥了不可替代的作用。但是我感觉身边好多朋友对电脑使用并不能说是很6,一些好的软件没人用,这就导致我们的效率比较低。今天我想给大家介绍一些电脑软件,这些都是我正在用,并且也得到好多人点赞的软件。不好用你砍我好吗!我会分为几个大类,可以根据自身感兴趣需

前言最近搞了一个需求,功能大概是通过html生成图片。功能是挺简单的吧?本地测试没什么问题,但是发服务器上,发现html生成的imgae中文乱码。解决过程首先google了一圈发现这个框架比较冷萌,几乎没什么可参考的资料,但是可以搜索同功能的框架(Html2Imgage),应该会出现同样的问题,因为

前言为什么要分析这个东西呢,其实guava从开始开始工作就用了,带给我们开发的效率提升不是一点半点,java很多工具类也说借鉴的guava,首先今天分析的Futures其实是因为今天线上发现一个百思不得其解的问题,线程池中有一个队列,大概在400左右,每个任务(抓取)大概最多几分钟(重试)执行完毕,

guava依赖<dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>23.6-jre</version&

欢迎留言

前言家里的路由器穿墙信号不强,平时都是用笔记本开热点,可是笔记本经常信号断流,或者自动断开,夏天笔记本发热严重,最近折腾树莓派,于是有了本文.正文GitHub开源项目:https://github.com/oblique/create_ap下载并安装sudogitclonehttps://githu