采集文章内容

从新闻库全自动采集

该系统自带新闻库,可自动从我们的实时新闻库里自动同步更新文章,该功能需要购买授权后使用,如果您没有购买授权建议您自己编写采集规则进行采集。
如图所示,在站点列表打开自动填充文章的开关即可自动给网站填充文章(打开开关后可能系统需要数小时准备,只需等待文章自动填充即可)


(图片可点击放大)

https://news.china.com/domestic/index.html

自己编写采集规则采集

前序:
采集规则编写对入门有一定难度,只要多尝试上手了后期使用起来会很方便,对今后使用其他采集软件也是多多受益

域名建站系统采集工具在网站后台对内容管理里,依次点击“内容管理”>>"采集管理">>"添加采集规则"进入

设置 采集列表网址

列表网址就是您要采集的网站的栏目列表地址
如果只是单纯采集列表页的第一页,直接输入该列表URL就行,采集第一页的内容的好处就是可以不用采集老旧的新闻,而且有新更新也可以及时采集到。如果需要采集该栏目的所有内容,那也可以通过设置通配符的方式,匹配所有列表URL规则。

匹配URL规则的方法也很简单,你只需要查看列表分页的不同,加个通配符即可,以人民网科技频道为例:

第一页的URL是:http://scitech.people.com.cn/index1.html
第二页的URL是:http://scitech.people.com.cn/index2.html
第三页的URL是:http://scitech.people.com.cn/index3.html

通过观察列表URL的变化,可以看出第一页就是index1.shtml,第二页就是index2.shtml,第三页就是index3.shtml,变换的就是页码而已,列表页的URL通配符是 [开始页-结束页] ,假如你要采集栏目前10页的,那么列表URL规则就是:http://scitech.people.com.cn/index[1-10].html ,看到其中的区别了吧,就是在变换的部分加入通配符,从开始页到结束页即可。

设置 文章网址区域

上面我们已经设置了要采集的网站列表网址,但是打开这个网址页面有很多内容,程序无法知道哪些才是要采集的文章网址,所以我们这里要设置一个区域规则去告诉它。
如图所示,红色框内才是我们要采集的文章


(图片可点击放大)

这个规则怎么写呢,就是你写个规则告诉它文章网址从哪里开始,从哪里结束,最后写成规则就是 开始的地方的代码[内容]结束的地方的代码

比如我们打开上面人民网科技频道列表的第一页:
http://scitech.people.com.cn/index1.html
打开后,右键查看源码,通过查看源码找到我们要的那些文章网址的区域


(图片可点击放大)

最后我们在前后找到一段唯一的代码做成规则,就是

<div class="headingNews qiehuan1_c">[内容]<div class="page_n clearfix">

设置 标题规则

标题规则和文章网址区域规则写法是类似的,打开列表里的任意一篇文章,查看源代码找到页面里含有标题的地方
如文章网址:http://scitech.people.com.cn/n1/2019/0830/c1007-31327011.html,源代码截图如下

(图片可点击放大)

标题前后一段唯一的代码做成规则,就是

<title>[内容]--科技--人民网 </title>

设置 正文规则

还是在上面的页面里找到正文所在的那个区域,找到正文前后的一段唯一的代码做成规则
如图所示

(图片可点击放大)

最后规则可以写成

<div class="box_con" id="rwb_zw">[内容]<div class="zdfy clearfix">

最后点击测试,如果测试成功了点击保存即可采集