最近一直在思考如何更改智能化抓取的事情,每当来了一个新的task,都要自己手动分析,手动写xpath ,然后写正则,各种测试,各种部署,其实说来,这些事情的重复度很高,那我们能不能把一些重复性的动作抽象出来,做成一个独立的单元呢?在参考佷多类似的自动化的工具之后,猜想了如下的动作是可以抽象出来的.
比如http://www.cnblogs.com/#1 http://www.cnblogs.com/#2 这种页面都是规则的,直接生成这些待跑的页面,然后放入,然后有一个上下页面的逻辑联系
这一点显的相当重要,可以说如果能解决这个问题,就可以提高很高的生产效率,我们大部分的时间都花在写xpath,调试这个上面了,所以能通过点点点解决写代码的时间,就会很方便(这样可能会有一个问题,浏览器拿出来的xpath和你正常的xpath不一样,所以还得区分渲染前后渲染后的)
比如提取数字,字母,或者特定的内容,如果把这些内容也方便能过鼠标点击出来,也会给清洗方便很多(可以考虑这些都做成插件)
渲染问题
输入到各种数据库里面,不过,这个数据考虑输入到中间件里面。由中间件负责输送到不同类似的目的地里面
关于安装,我个人推荐使用docker ,不建议使用官方的最新镜像,有一些问题一直没有解决,我在尝试了另外一个版本之后直接使用如下命令
| 1 2 | docker run -d -v /Users/brucedone/Data/portia:/app/slyd/data:rw -p 9001:9001 --name portia scrapinghub/portia:portia-2.0.5 |
特定的版本下我试过是没有问题的,推荐大家就用这个版本,这样这个服务就已经开启了
打开本地浏览器http://127.0.0.1:9001/,打开之后就可以看到主界面了
首先创建一个项目,这点应该和scrapy start project一样,然后进入到里面,输入你想爬的网址
假设输入的是一个相册https://www.douban.com/photos/album/79005353/,然后进入可编辑的界面,点击New Spider
以上的几个属性在我们熟悉了scrapy之后就了解是什么东西了,除了最后一个,sample pages,我们看一下的解释
| 1 2 | Navigate to a web page that has the data you need, and create a new sample page to begin annotating the data. |
简而言之就是一个数据模板,当爬虫爬取这些页面的时候就可以按照你的模板来提取你要的数据,所以先要制作这样的模板,才能进行数据的进一步操作
这个时候进入到数据侦测状态,新建一个item,现在开始黑魔法阶段
选中+ 这个工具,点击你想要的元素,比如我选择了图片,评论,回应三个字段
另外,字段类型已经提供好了相应的数据清洗,比如我只要text ,或者只要number,选中之后右的数据栏就会相应的变化(不得不说,简化了相当多的操作啊)
这些元素选择完成之后,现在进入黑魔法阶段,点击-右边的列表选项
我们根据当前的字段颜色再次选中列表中的其它元素
是不是相当的神奇,这样就可以将同节点下的相同元素都筛选出来,右边的结果也可以以json显示
本次主要从
这几个角度来分析了问题,下期我将从实用,功能,拓展的角度来分析如何用到生产线上,如果我的文章对大家有帮助的话,请不要吝惜您的赞或者打赏,谢谢 :)
原文来自:大鱼的鱼塘
声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com
提供多种拟人音色,支持多语言及方言,并可在同一音色下输出多语言内容。系统可自适应语气,流畅处理复杂文本。
Nano Banana(gemini-2.5-flash-image 和 gemini-3-pro-image-preview图像模型)是图像生成与编辑的最佳选择,可集成 Nano Banana API,实现高速预览。
支持通过自然语言文本智能生成高质量短视频。用户只需输入一段描述性文字,即可自动合成画面连贯、风格鲜明、配乐匹配的定制化视频内容。适用于短视频创作、广告预演、社交内容生成、游戏素材制作等场景,为开发者与创作者提供高效、灵活、富有想象力的视频生产新范式。
先进的图像理解和分析能力,它能够快速准确地解析和理解图像内容。无论是自然风景、城市建筑还是复杂的场景与活动,都能提供详细的描述和深入的分析。
根据文本提示(prompt)和图片公网访问链接,编辑原图按照特定风格、场景和氛围感的输出新的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。