中文文档

29 May 2016

SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过SeimiAgent去加载并渲染想要处理的动态页面,然后将渲染好的页面直接返给调用方进行后续处理,所以运行的SeimiAgent服务是与语言无关的,任何一种语言或框架都可以通过SeimiAgent提供的标准http接口来获取服务。SeimiAgent的加载渲染环境都是通用浏览器级的,所以不用担心他对动态页面的处理能力。同时支持渲染生成页面快照(png)和PDF,亦支持自定义js脚本处理基本渲染后的页面。

快速开始

cd /dir/of/seimiAgent
./seimiagent -p 8000

执行命令后,SeimiAgent会起一个http服务并监听你所指定的端口,如例子中的8000端口,然后你就可以通过任何一种你熟悉的语言像SeimiAgent发送一个页面的加载渲染请求,并得到SeimiAgent渲染好的HTML文档进行后续处理。

示例

demo

支持的http参数

仅支持post请求,请求地址/doload

如何构建

强调

有些同学误以为这部分内容是SeimiAgent的安装指引,这是理解有偏差的,下面的内容是用来引导自行编译的。对于大多数使用者来说是没有必要做下面这些内容的,直接下载官网的分发包,解压,直接运行即可。再次强调,SeimiAgent是开箱即用的。

编译的这个过程会花费很长时间如果你觉着很有必要的话,一般情况下更推荐使用发布好的二进制可执行文件

依赖

执行

python build.py

接下来就等吧,国内网络不好可能还要重来(因为需要先从github上下载qtbase和qtwebkit这两个依赖,后续如果有时间会把qtbase和qtwebkit拷到国内仓库一份),4核I5大概半个小时以上,单核云主机一般2个小时左右,16核以上服务器编译一般在十分钟以内

More

更多文档还在准备中,感谢大家支持Seimi家族(SeimiCrawler,SeimiAgent)