微信爬虫小程序
in 技术 with 0 comment

微信爬虫小程序

in 技术 with 0 comment

微信爬虫小程序

*抓取爬虫微信小程序,页面显示抓取的热门资讯,后台同时开源,增加一个咨询只需要实现一个接口即可,接口简单适合新手入门学习。已实现抓取热搜榜如下
百度,知乎,头条,微博,SAnBlog,妹子图

微信小程序 autohot(前端)

示例

介绍

抓取爬虫微信小程序,页面显示抓取的热门资讯,后台同时开源,增加一个咨询只需要实现一个接口即可,接口简单适合新手入门学习。
后台同时开源地址:https://gitee.com/SAnBlog/vx_autocrawler

说明

使用

git clone https://gitee.com/SAnBlog/autohot.git
cd autohot

预览

界面简陋,请多包涵。
图片在image目录下

https://gitee.com/SAnBlog/vx_autohot/blob/master/image/1.png

https://gitee.com/SAnBlog/vx_autohot/blob/master/image/2.png

https://gitee.com/SAnBlog/vx_autohot/blob/master/image/3.png

资源

微信小程序 vx_autocrawler(后台)

介绍

微信小程序抓取爬虫项目后台,只需要实现一个接口即可实现一个抓取。无需管理调度,简单强大。

微信小程序

https://gitee.com/SAnBlog/vx_autohot

安装教程

  1. jdk8
  2. LomBok

功能

抓取调度部分使用爬虫框架,基于springboot
Earth:https://gitee.com/SAnBlog/Earth

已实现抓取热搜榜如下
百度,知乎,头条,微博,SAnBlog,妹子图

示例

一个妹子图抓取的完整代码,如果想爬整站请参考Earth:https://gitee.com/SAnBlog/Earth

/**
 * @Author: shouliang.wang
 * @Date: 2019-02-21 21:09:25
 * @Description: https://www.mzitu.com/xinggan/
 */
public class Mzitu2Processor implements IProcessor {

    @Override
    public void process(Response response) {
        Document document = response.getDocument();
        /**
         * 图片地址提取规则
         */
        List<ByteBean> resultList = Lists.newArrayList();
        document.getElementsByTag("img").forEach(element -> {
            String img = element.attr("data-original");
            if (StringUtils.isNotEmpty(img)) {
                String alt = element.attr("alt");
                ByteBean byteBean = ByteBean.builder().name(UUID.randomUUID().toString().replace("-", "")).url(img).alias(alt).build();
                resultList.add(byteBean);
            }
        });


        response.getResultField().getFields().put(FieldEnum.BYTE, PipelineExt.builder().byteBeans(resultList).build());
    }

    @Override
    public String name() {
        return "mzitu";
    }

}

vx_autocrawler-pi(树莓派shell)

介绍

基于微信小程序抓取爬虫项目后台修改,只需要实现一个接口即可实现一个抓取。无需管理调度,简单强大。

部署教程

树莓派爬虫多平台热搜榜轮播展示

效果图

https://img-1251747095.file.myqcloud.com/img/20200624210130.jpg

微信小程序

https://gitee.com/SAnBlog/vx_autocrawler

安装教程

  1. jdk8
  2. LomBok

功能

抓取调度部分使用爬虫框架,基于springboot
Earth:https://gitee.com/SAnBlog/Earth

已实现抓取热搜榜如下
百度,知乎,头条,微博,SAnBlog,妹子图

示例

一个妹子图抓取的完整代码,如果想爬整站请参考Earth:https://gitee.com/SAnBlog/Earth

/**
 * @Author: shouliang.wang
 * @Date: 2019-02-21 21:09:25
 * @Description: https://www.mzitu.com/xinggan/
 */
public class Mzitu2Processor implements IProcessor {

    @Override
    public void process(Response response) {
        Document document = response.getDocument();
        /**
         * 图片地址提取规则
         */
        List<ByteBean> resultList = Lists.newArrayList();
        document.getElementsByTag("img").forEach(element -> {
            String img = element.attr("data-original");
            if (StringUtils.isNotEmpty(img)) {
                String alt = element.attr("alt");
                ByteBean byteBean = ByteBean.builder().name(UUID.randomUUID().toString().replace("-", "")).url(img).alias(alt).build();
                resultList.add(byteBean);
            }
        });


        response.getResultField().getFields().put(FieldEnum.BYTE, PipelineExt.builder().byteBeans(resultList).build());
    }

    @Override
    public String name() {
        return "mzitu";
    }

}