1.采集文章软件

采文章界面:
采集软件

  • 常见问题:
  • 一、如何同时采集多个站?
  • 目前一个软件界面只能对一个网站进行采集。如需要多个站同时进行,请进入程序目录,复制 KelinkCaiJi001.exe 将001改成002,并运行之。以此类推!如果文章内容有时间顺序的,不建议同时运行多个,会打乱顺序。
  • 二、注册版与未注册的区别?
  • 未注册版只能采一个网站,注册版无限制。
  • 三、如何采集图片吗?
  • 软件自带一图片采集示例,跟采文章一样。采到的内容如果有图片地址,会将第一张图设为文章缩放图。
  • 四、采集到的内容存放在哪里?
  • 采集到内容保存在柯林建站系统的文章模块中,【电脑后台】→【网站管理】→【添加删除内容】→点击文章栏目,还可以自行增删除改。
  • 四、首页排版在哪里修改?
  • 【电脑后台】→【网站管理】→【排版方式二】→ 点击进入不同版,再进入全顶,全低,首页等,可以看到HTML代码。
  • 五、如何替换字符?
  • 采集到的内容可能有广告,请进入过滤字符进行替换:【电脑后台】→【网站管理】→【基本信息设置】→【基本信息设置】→【25.内容字符替换设置】。注意:采到的中文内容有可能是编码的,请用浏览器访问后,点击右键,查看源文件,看具体编码是什么,才能替换掉。
  • 六、采集不到数据如何办?
  • 采集一段时间后可能无法采内容,原因:1.目标网站将运行采软件的服务器IP或电脑IP封了;2.网络不让访问;3.目标网站开启了证书访问,如https://开头的地址;4.目标站地址变更了。请用主机上的浏览器访问目标站地址看是否提示不能访问。
    方法一:在采集软件上选其它目标站,进行采集。
    方法二:此时可以将建站系统目录下的【柯林文章采集报码绿色程序】打包下载到自己电脑上运行,建议用拨号网络,采不了重新拨号即可(建议用电信网络可以断开路由器再通电)。只要运行文章采集软件即可,报码采集软件继续在服务器上运行。
    提醒:在采集软件状态信息中,只显示采第1页,第2页...说明访问不了目标站了。如果显示采第几页第几条标题,则表示正常。
    采集软件
  • 七、都有什么版本?
  • 文章采集演示地址触屏版V3.
  • 文章采集演示地址彩版V2.
  • 文章采集演示地址简版V1.
  • 默认关闭网站中,如需要测试请联系我们打开。版面可以自己任意修改排版,建站后台提供源HTML代码。

2.采集报数软件

软件界面:
采集软件

  • 目前一个软件界面只能对一个网站进行采集。如需要多个站同时进行,请进入程序目录:复制 KelinkBaoMa001.exe 将001改成002,并运行之。以此类推!
  • 帮助说明:
  • 1.本程序需配合网站使用,运行于服务器。
  • 2.页面报数地址:http://域名/baoma.html 或 触屏版首页
  • 3.手动报数管理地址:http://域名/admin.aspx
  • 4.可手动输入报数,单独密码配置在网站目录下的 web.config 参数为:KL_BaoMa_PassWord 中设置密码
  • 5.数据文件是:report.xml 这就是此软件采集到的数据。
  • 6.需要手动配置文件1:web.config 中的:KL_BaoMa_PassWord ,KL_BaoMa_Color_Red,KL_BaoMa_Color_Blue,KL_BaoMa_Color_Green,KL_BaoMa_Zodiac_1 至 KL_BaoMa_Zodiac_12 有详细的中文配置说明!
  • 7.需要手动配置文件2:/djs/index.js 和/djs/indexV3.js 中有详细中文说明。(规则每年有变动所以需要手动更改)
  • 报数无刷新界面效果演示一.
  • 报数无刷新界面效果演示二.
  • 默认关闭网站中,如需要测试请联系我们打开。版面可以自己任意修改排版,建站后台提供源HTML代码。

3.采集规则帮助说明

  • 一、熟悉二级页面,三级页面,一级页面
  • 【二级页面】:有上一页下一页显示标题列表。【三级页面】:点击标题链接进去的页面。【一级页面】:首页及其它页面。
  • 采集软件
  • 二、填写列表地址
  • 用百度浏览器或其它浏览器访问目标站,点击栏目进去,点击下一页上一页。看地址栏里的地址。
    例:栏目【WAP网站策划方案】http://kelink.com/articlelist-204593.html
    点击下一页后的地址是:http://kelink.com/articlelist-204593-2.html?action=class&getTotal=88
    点击上一页后的地址是:http://kelink.com/articlelist-204593-1.html?action=class&getTotal=88
    那么我们可以分析出要填写的列表地址是:http://kelink.com/articlelist-204593-[n].html?action=class&getTotal=88
    注意:页码数用 [n] 来代替。
  • 三、填写二级页面【链接】规则,即列表中的链接要提取。格式:开始字符([\s\S]*?)结束字符
  • 点击右键,查看源文件或审查元素,显示如下。
    采集软件
    二级页面【链接】规则就是:href="([\s\S]*?)">
    有效地址中有带字符输入:article
    提取后的地址前加,后加,留空。如果提取到的地址没有域名,需要前加入http://地址,组成一个完整的URL链接。
  • 四、填写三级页面【标题】和【内容】规则。格式:开始字符([\s\S]*?)结束字符
  • 点击任一标题进去,右键,查看源文件或审查元素,显示如下。
    采集软件
    三级页面【标题】规则就是:titleview">([\s\S]*?)</h2>
    三级页面【内容】规则就是:<!--listS-->([\s\S]*?)<!--listE-->
  • 五、总之规则格式: 开始字符([\s\S]*?)结束字符 或 开始字符(.*?)结束字符,每一步采集软件上都有【测试】按钮可进行调试。
  • 六、SQL配置区参数,可以进入建站目录下的web.config,可以找到数据库用户名和密码。
    采集软件