5OK交换链 Idhgate
采集系统可以直接深入到站点及其网页的所有内容,将网页中的有效数据采集出来(而不仅是网页或链接),并保持数据之间的逻辑关系。对一个新闻站点,它可以将每个新闻的标题、正文等信息单独采集出来,分别作为字段存储在系统中。
采集项目管理 单击左侧管理导航的“采集管理”,出现采集的管理项目: ·文章采集:用于采集设置好的采集项目。 ·项目管理:用于建立、管理和复制采集项目。 ·过滤管理:用于过滤采集中的标题和正文的字符。 ·历史记录:已采集的记录历史,避免重复采集。 ·导入|导出:用于共享迁移采集项目。 ·定时设置 | 启动定时:用于设置定时采集 ·区域采集管理:就是采集网站页面的某个固定区域,并将采集得来的区域代码保存为内联页提供给模板调用,刷新区域采集就可时时更新。
文章采集
1.单击后台左侧管理导航的“采集管理”->“文章采集”,出现“采集系统项目管理”界面:
参数说明: ·选择:选择您要采集的项目,可多选用于批量采集操作。 ·状态:如果采集项目没有通过审核,则选择框的颜色为灰暗并不可选,其状态栏显示×。您要必须在“项目管理中”连续通过“采样测试”->“设置属性”这两步,才能通过审核。通过审核的采集项目状态栏显示√。 ·上次采集:显示最新的采集日期。 黑色:表示上一次采集的时间。如:2005-5-8 14:45:44。 红色:表示当天采集的时间。如:2005-5-10 11:31:32(如果过了当天时间则会变成黑色)。 ·文章采集选项:系统提供了三种采集的样式,包括 ->不录入数据库,只测试采集功能是否正常 ->采集过程中预览文章内容 ->不采集本系统中已经存在相同标题的文章(网站文章超过2万篇以上,请慎用此项) 这几个是多选选项,您可以选择您自己想要的方式,如果都不选择那就是直接把采集的文章写入到数据库中。 ·采集模式:提供“稳定采集”、“快速采集”、“链接采集”和“断点采集”四种模式。 ->稳定采集:是针对一台服务器有多个动易系统时建议选此项,每采集一篇文章让服务器休息3秒。这样当一台服务器多个动易系统同时采集的时候服务器不受采集影响。 ->快速采集:是针对用户拥有一台独立的服务器或配置非常好的服务器使用的采集模式。快速采集将发挥采集的最快速度,采集的效率最高。 ->链接采集:就是只采集对方网站的链接,不采集正文。 ->断点采集:就是为了采集过程中突然中断提供的一种采集模式,当您上一次采集的时候突然中断后,在您再一次打开采集的时候,断点采集按钮就从灰色不可用转变成为可用按钮,您只要单击按钮就可以从上一次采集断开那一点开始继续采集。减少系统再次检测的时间。 ·历史记录:采集项目具有采集统计功能,显示该项目采集成功数和失败数,点击成功失败可看到具体的历史记录信息,并提供采集统计功能。 ·采集选项:提供“测试采集”和“正文预览”两项,分别是来测试建立项目成功后是否有效。 ·每页项目数:您可以下拉选择每页显示的页数,用于批量采集,比如一次采集20个项目或更多。 ·开始采集:勾选了相应采集项目前的选择框,再单击本功能按钮,系统开始进行项目采集与测试。
项目管理
单击后台左侧管理导航的“采集管理”->“项目管理”,出现“采集系统项目管理”界面:
参数说明: ·管理导航:系统提供采集管理导航操作。 ->管理首页:链接到采集系统项目管理首页。 ->添加新项目:单击本功能链接添加新的采集项目。 ·“操作”列功能链接说明: ->编辑:修改您指定的采集项目。 ->测试:测试您的采集项目是否正确,如果显示采集的正文页证明成功,否则会提示您第几步错误。 ->属性:设置您采集到的文章,放在那个频道中,那个栏目中,相对应的属性设置。 ->复制:如果所采集网站的模板相同,可利用本功能复制多个项目,以提高采集效率。 如果导入采集项目后,就需要审核,是否是正确的采集项目,您必须点要审核项目的, !采集项目只有通过测试和属性这连续两项后方可通过审核。测试:保证采集项目正确;属性:制定采集后的储存位置。 ·操作按钮:系统提供将已选定的项目“批量删除”或“批量设置”二个操作按钮。 ->批量删除:选择您要删除的采集项目(可多选),选择后单击“批量删除”按钮即可删除选定的采集项目。 ->批量设置:选择您要设置的采集项目(可多选),选择后单击“批量设置”按钮,则可批量修改项目属性。 具体项目属性设置请参阅后章“项目管理”的“属性设置”。
下面请认真阅读采集步骤说明,建立您要采集的项目。单击顶部的“添加新项目”功能链接,开始添加新的采集项目。
基本设置
“添加新项目--基本设置”的界面参数说明: 1.基本设置:
·管理导航:如果是编辑项目,可任意点击所属的项目链接。 ·添加项目名称:填写自定义项目名称。 ·网站名称:填写自定义网站名称。 ·新闻列表网址:填写采集网站的的栏目列表页(即标题较多的列表网页,不是首页)。 ·网页编码格式:提供GB2312、UTF-8和Big5三种编码格式。国内的网站基本都是GB2312,(默认选项可不选) 如果是香港,台湾网站请采用 Big5编码,如果是采集海外网站用UTF-8编码。 ·项目备注:填写自定义备注信息。 2.登录设置:
·网站登录:选择不需要登录或设置参数(如果网站需要登录后才能浏览信息刚要选择此选项)设置参数中填写登录地址、提交地址、用户参数和密码参数。 详细设置: 登录地址: 用户要网站要登录的网页例如 :http://www.xxxx.com/UserLogin.asp 提交地址: 指用查看网页源代码方式查看登录地址的Form 表单提交的地址 比如上面输入登录地址为http://www.xxxx.com/UserLogin.asp 打开后查看网页源 代码 在源代码中发现他的form 代码是 <form action='/User/User_ChkLogin.asp' 那么提交地址就是 http://www.xxxx.com/User/User_ChkLogin.asp 用户参数: 用户文本框名称就是查看网页源代码登录表单的用户文本框名称 例如: <input name='UserName' 它的用户文本框名就是 UserName 用户名称就是您要登录对方网站的注册用户名 密码参数:密码文本框名称就是查看网页源代码登录表单的密码文本框名称 例如: <input name='UserPassword' 它的用户文本框名就是 UserPassword 密码名称就是您要登录对方网站的注册用户密码 失败信息: 这里获取地址的最简单方法是,在对方网站登录时随便输入一个错误的用户名和密码, 点登录后,这时一般都会出现一个提示登录不正确的页面,把这个页面提示登录不正确 的字符复制下来填写到这里就可以了(注意复制的字符要求在提示登录不正确页面的唯 一字符,就是没有重复的字符). ->填写好相关参数后,单击“下一步”按钮,进行采集列表项目信息设置。
列表设置 本步骤界面中,将显示基本设置中填写的采集目标新闻列表页的信息,并设置采集的列表的相关代码: 1.网页预览:显示采集目标列表网页预览效果。
2.代码预览:可以设置是否查看列表网页的源码。
3.基本设置:设置详细的列表采集信息。
·列表的开始代码和列表的结束代码:填写上部采集目标源码框中显示的采集列表代码的开始和结束的代码。 !填写的代码必须保证是当前列表页唯一的,可单击右侧的“测试代码”按钮是测试填写的代码是否唯一。
·链接开始代码和结束代码:填写获得链接的代码。 如果列表分页正确后,就获得的一排列表标题代码。链接代码就要获得标题的URL链接,注意是要获得标题到正文的Url链接。 ->使用例举1: 一个新闻标题的代码为“<td class='listbg'><a class='listA' href='/Help/Admin/others/394.html' title='文章标题:如何去掉图片随鼠标而放大或缩小的功能 作 者:壮志 更新时间:2005-5-13 20:04:23' target='_self'>如何去掉图片随鼠标而放大或缩小的功能</a><img src='/images/new.gif' alt='最新文章'></td>” 则链接开始代码和链接结束代码填写的信息为: 链接开始代码“<a class='listA' href='” 链接结束代码“' title='” ->使用例举2: 一个新闻标题的代码为<td valign="top"><a href="/chinese/SPORT-c/859117.htm" class="ty5" target="_blank">汉堡大师赛冷门迭爆 阿加西不敌非种子选手出局</a><span class="ty6">(05/11)</span></td> 则链接开始代码和链接结束代码填写的信息为: 链接开始代码“<a href="” 链接结束代码“" class="ty5" target="_blank">”
这时获得的字符正好为可运行的链接“/Help/Admin/others/394.html”和“/Help/Admin/others/394.html”。在这里,如何获得有效的链接是关键。
·链接特殊处理:填写对链接的特殊处理定义。如果选择“重新定位”选项,则出现“绝对链接字符”内容框。 绝对链接字符:同列表重新定向原理一样,就是当有的栏目页用的是js代码运算,获得的URL而不是地址。但如果运算它并出现最后成功的页面,则可认为是正确的。把正确的URL添在下面以针对js处理的栏目页。
当链接代码是一些非常特殊的JS函数调用代码时,请设置此选项。 例如:列表中的链接代码形如:<a href='#' onclick='opennews(137)'>,对应的opennews(id)函数的代码为:window.open('http://www.xxxx.com/xxx/news.asp?id='+id,'','****')。 则链接开始代码设置为: <a href='#' onclick='opennews(,链接结束代码为:)'>, 此处“重定向URL”设置为:http://www.xxxx.com/xxx/news.asp?id={$ID}({$ID}是系统规定的标签) ->填写好相关参数后,单击“下一步”按钮进行采集正文的相关设置。 4.分页设置:
从源代码中获取下一页的URL: ·开始代码或结束代码至少有一个在网页中是唯一的,才能保证可以正确采集到相关内容。因为每个列表页的代码都可能不同,所以需要您分析多个列表页并找到相同的开始代码和结束代码,才能保证可以从所有列表页中准确采集到所需内容。 ·列表索引分页:如果列表网页中有象“上一页”、“下一页”这样的分页,则要设置索引分页。 ->不作设置。注:当前采集的列表页不分页。 ->设置标签。若采集的列表分页中有“下一页”和“上一页”的分页内容,则要获取分页开始与结尾的代码。 >>下页开始和结束标记:填写下一页开始和结束标记代码。 例:“共 82 篇新闻 首页 上一页 下一页 尾页”,这是某列表页的分页链接。 1.首先我们就要得到“下一页”的链接URL。 例:以下是网页中的“下一页”的URL代码“<a href='/news/List/List_2_2.html'>下一页</a>”,那么我们就要得到:下页开始标记“<a href='”,下页结束标记“'>下一页</a>”。 !请注意:开始和结束标记再加上中间采集到的代码,正好是一个完整的网络URL地址,这就是我们要设置的。 2.要正确的得到下一页URL地址关键是/news/List/List_2_2.html(如果是相对路径也不用担心,系统会自动转换为绝对路径),您还要单击右侧“测试”按钮以确认唯一性。 !因为下一页代码少,所以不可能全部唯一,但只要有一处代码为唯一就可以了。 >>索引分页重定向:系统能智能分析网站的相对路径,如果特殊情况分析不对,请按上述步骤使用此功能。一般不会用到,如果采集分页很纵深,并且下一页代码是相对路径。在下一步链接设置分析到的下一页列表的URL和实际不符,应用此功能。在列表设置捕获相对路径,如果是动态页捕获ID。 例:在索引分页中填写实际路径 http://www.xxxxx.com/xxx/xx/xxx/news/{$ID} {$ID}就是列表捕获的相对路径或动态ID。
批量指定分页URL代码 :如果分页的代码都是数字,就可用批量生成自动控制分页。 >>原字符串:例:http://www.xxxxx.com/news/index_1.html 它的分页都为http://www.xxxxx.com/news/index_2.html,即有数字规律,则可在原字符串中这样填写: “http://www.xxxxx.com/news/index_{$ID}.html” 其中{$ID}代表分页数。 >>生成范围:可写1-10或10-1,意思是采集1到10页或10到1页倒序采集。
手动添加分页URL代码: 如果对方网页分页实在是没有头绪,则可用手工添加方式添加各个分页的URL。 !注:一行一个分页URL地址。事实证明这种效率并不高,为无奈之举,因为无头绪的分页中列表分页也未必是有头绪的。 5.列表缩略图:
·缩略图开始代码和结束代码:填写获得缩略图地址的代码。 适用于截取一些列表页有缩略图的网站。列表缩略图就要获得缩略图的地址。 ->使用例举: 一个网站列表缩略图的代码为 以下是引用片段: <td vAlign=top width=108 rowSpan=2><IMG height=62 src="/Skin/200508/index_001.gif" width=75></td> 则缩略图开始代码和缩略图结束代码填写的信息为: 缩略图开始代码 以下是引用片段: <IMG height=62 src=" 链接结束代码 以下是引用片段: " width 这时获得的地址正好为缩略图的地址“/Skin/200508/index_001.gif”。 在这里,需要注意的是“缩略图开始代码”的代码设置,不能设置为:“src="”。这里要把您采集的缩略图的代码它们共同代码一起设置上,不然会出现和正文不对应的现象。
正文设置 本步骤界面中,将显示所采集正文的信息,并设置标题、正文、时间、作者、来源、关键字等信息: 1.网页预览 :显示采集目标内容页的预览效果。
!上面显示“请选择测试的正文页”下拉选择框,可以选择相应的正文页面作为测试页。 2.代码预览:可以设置是否查看列表网页的源码。
3.基本设置:
·标题开始标记和结束标记:对网页正文的标题进行设置。 ->使用例举1: 源码框中显示的标题信息为“<title>如何去掉图片随鼠标而放大或缩小的功能</title>”,则标题开始标记和标题结束标记中填写的信息为: 标题开始标记“<title>” 标题结束标记“</title>” ->使用例举2: 源码框中显示的标题信息为“<b><font size='4'><br>这是文章标题</font></b>”,则标题开始标记和标题结束标记中填写的信息为: 标题开始标记“<b><font size='4'><br>” 标题结束标记“</font></b>” 这时获得的字符正好为我们想要的标题“如何去掉图片随鼠标而放大或缩小的功能”和“这是文章标题”。 ·正文设置操作如上 !在这里,如何获得有效的链接是关键。就会得到我们想要的标题。 4.选项设置:
·更新时间、文章作者、文章来源、文章关键字、文章简介: 这些内容的设置与上述设置方法相同。 ->使用例举: 源码框中显示的时间、作者、来源信息为“<td colspan="2" class="Article_tdbgall">作者:<a href='#' title='壮志'>壮志</a> 文章来源:本站原创 点击数:<script language='javascript' src='/Help/GetHits.asp?ArticleID=394'></script> 更新时间:2005-5-13</td>” 则填写的时间、作者、来源信息为: 时间开始标记“> 更新时间:” 时间结束标记“</td>” 作者开始标记“作者:” 作者结束标记“ 文章来源” 来源开始标记“文章来源:” 来源结束标记“点击数:” ·您可以指定作者设置、来源设置和关键字词的自定义文字。 在关键字词设置中,如果想让关键字是正文的标题,关键词操作: ->可选择将标题打散为关键词(默认) 打散的字数可以指定 ->也可以指定网页中截取的关键词 如:关键字:|如何|何去|去掉|掉图|图片|片随|随鼠|鼠标|标而|而放|放大|大或|或缩|缩小|小的|的功|功能|能| ·文章简介可指定从获取内容前的多少字符为简介 5.自定义设置:
这里显示您所设置的自定义字段。自定义字段设置请参阅本书自定义字段管理说明。 6.分页设置:
·正文分页设置:在设置正文分页时通常所在页面没有分页,那么这样选择显示视图网页的上部有个下拉菜单,记录的当前列表分页的所有标题,在其中选择有正文分页的正文页。 ·当正文里出现有分页的时候,就要用到这个设置,先看下这篇文章的分页情况:
下面是代码里的“下一页”代码段部分
这样我们就可以截取代码了,如图示:
对于这个分页设置里的第三个选项:设置分页标签----这里的设置是选取区域段的全部的分页代码,如上面的图中的 “1”<----->“10” 区域,我们再看下此正文页的这段区域代码:
那么我们截取的代码就如下图所示:
设置好了,点“下一步”,我们会看到正确打开的页面里对分页地址正确获取得到了
->填写好相关参数后,单击“下一步”按钮进行采样测试。
采样测试
本步骤界面中,将测试显示采集的效果是否正常。如果有分页请注意下面的小红色文字的提示。
->采集所有测试页为内联页显示方便用户浏览和防变形,增加采集错误反馈机制,单击“下一步”按钮对采集的文章进行进行属性设置。
属性设置
本步骤为采集的最后一步,设置所采集文章在本网站中详细的属性,如所属栏目、专题、阅读点数、文章属性等信息,并可设置过滤选项、采集数量和采集属性。
1.基本设置:
·文章频道:就是要指定您现在要采集的文章是属于那一个文章频道中。 ·栏目/专题:指定您现在要采集的文章是属于哪一个栏目和专题。 ·文章状态:是确定您正要采集的文章的状态,包括草稿、待审核、终审通过。 ·立即生成:如果您把这个勾选上,在采集完成后就把您所要采集的文章生成html。
2.属性设置:
·内容页分页方式:推荐选择手动分页,以对方正文分页为基础。注:如果选择自动分页,分页的字符数绝不能为0,否则在生成html时会出现问题。 其他具体设置可以参阅添加文章相应部分内容。
3.收费设置:
请参阅添加文章的相关收费部分。 4. 采集设置:
参数说明: ·过滤选项:过滤采集正文页中的HTML字符。 Iframe:过滤内联。 Object:过滤Falsh和控件。 Script:过滤js、vbs等脚本。 Class:过滤类。 Div:过滤层。 Span:过滤。 Table、Tr、Td:过滤表格属性。 Img:过滤图片。注意如果选择过滤图片采集过来的数据中将不会有图片 Font:过滤字体定义。 A:过滤链接,可防止用户点击链接为其它网址。 HTML:过滤。注意如果选择过滤HTML采集过来的数据将以纯文本形式显现 ·采集数量:系统提供了三个选项 ->采集列表中的所有文章 ->采集列表中的N篇文章后停止采集 ->采集列表中的N个分页后停止采集 ·采集图片设置: ->保存远程图片 ->自动给图片增加水印 ->自动为第一张图片创建缩略图 ->将文章内容中的Flash和图片的地址保存到根目录中的CollectionFilePath.txt文件中,以方便网际快车等软件批量下载 ·文章采集顺序:正序采集或者倒序采集。而系统推荐用的就是倒序采集。 !如果您要启用立即发布,发布后要记得生成相应的JS文件。 ->填写好相关参数后,单击“完成”按钮,出现成功信息,完成本采集项目设置。
采集信息操作
在添加好采集项目后,下面就可以开始进行信息采集的操作了操作的步骤非常管理,您可以在点击之间完成大量数据的录入。
2.在选择相应项目后,单击您要选择的采集方式按钮开始采集信息。 !在采集前,您可以先勾选“不录入数据库,只测试采集功能是否正常”,以测试建立的采集项目采集信息是否有效。 3.系统出现信息采集过程界面: 在这个界面中,顶部显示了信息采集的运行过程与统计信息,单击“停止采集”按钮可终止本次采集过程。 每一个采集的页面都显示了标题、作者、来源、关键字、页面地址和其它分页、图片等信息:
系统信息采集完成后,出现成功采集的提示信息:
系统自动返回“采集系统项目管理”界面,并在当前采集项目的“上次采集”列显示红色的最新采集日期。 4.在信息采集完成后,您可以进入相应的文章功能频道,查看采集的信息。如果您在采集项目的“属性设置”中没有勾选“通过审核”,您要审核后采集的信息才能显示在前台。
本功能提供采集的内容页中的标题和正文中字符进行自动过滤,以用于采集的内容中出现屏蔽不良语言。
单击后台左侧管理导航的“采集管理”->“文章采集”,出现“过滤管理”界面:
·管理导航:系统提供采集管理导航操作。 ->管理首页:链接到过滤项目管理首页。 ->添加新项目:单击本功能链接添加新的过滤项目。 ·列表中显示已添加的过滤项目信息。“操作”列中提供对过滤项目启用或禁用、修改、删除的管理操作。
添加新过滤
单击顶部管理导航的“添加新项目”功能链接,出现“添加新过滤”界面:
参数说明: ·过滤名称:填写自定义的过滤名称。 ·所属项目:选择已经建立的要过滤的采集项目。选择“公用项目”将应用于所有的项目,用于屏蔽不良语言。 ·过滤对象:提供标题过滤和正文过滤二种对象。 ·过滤类型:分为简单过滤和高级过滤二种类型。
->简单过滤: 出现“内容”和“替换”两个内容框,主要用于内容的替换。例:内容填写“法轮功”,替换填写“”即(什么都不填写),则系统会把采集中标题或正文所有含有“法轮功”的字符删除。
->高级过滤: 出现“开始标记”、“结束标记”和“替换”三个内容框,主要用于一段内容的替换。如过滤采集内容中广告。例: <!--0716128696B7--> <OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=5,0,0,0" WIDTH="750" HEIGHT="80"><PARAM NAME=movie VALUE="http://xxxxxxxx/200505/10/17870_xxxxx-xxxx-ent-0511-75080.swf"> </OBJECT><!--$ baoli/2005-5-11 2005-5-11/A $--> 则填写的开始标记、结束标记和替换信息为: 开始标记“<!--0716128696B7-->” 结束标记“<!--$ baoli/2005-5-11 ~2005-5-11/A $-->” 替换“”(即什么都不填写) 系统将自动过滤采集内容页中的广告内容。 ·是否启用:设置是否立即启用过滤功能。 !启用后,在过滤项目管理页面中,“状态”列显示为√,没有启用时显示为×。
采集历史记录是用于查看已经采集的历史记录,维护的一般操作较少,但很重要。尤其到多项目和采集的后期它的重要性甚至比采集项目本身还重要。
单击后台左侧管理导航的“采集管理”->“采集历史记录”,出现“采集系统项目管理”界面:
界面中显示每一个采集信息的项目名称、新闻标题、所属频道、所属栏目、采集页面、结果和操作的详细记录。在“结果”列,所有采集成功的信息将显示“成功”字样,失败的信息显示“失败”字样。“操作”列可删除本条历史记录。
·项目排序查询:系统提供选择所属的采集项目排序查询历史记录,本功能尤其是对采集文章的时候使用最多。 ·功能按钮: ->“删除”按钮:系统提供删除制定项目后期历史记录是很重要的,如果想删除某个项目再重新采集一次,请在这里选择。 ->“清除失败记录”按钮:采集过程中某项目会提示采集失败的记录,说明本采集项目设置尚有问题。您可以重新设置采集项目后,在历史记录的顶部下拉菜单中选择“所有项目失败记录”,会显示所有的失败记录。您可以删除失败记录再测试。 ->“清空所有历史记录”按钮:在采集初期作为测试时是非常快捷的操作,但在后期请慎用。本操作会格式化采集数据库中“历史记录”表,清空所有采集历史记录。 !在采集后期历史记录是非常宝贵,一旦在后期丢失无法恢复! ->“删除选择项目记录”按钮:选择下拉菜单中的项目后单击此按钮,将非常便捷地删除某一采集项目的记录。
系统提供可视化的导入、导出项目操作功能,以导入或导出相关成功的采集项目。利用这个功能您可以与他人共享采集项目。
!导入、导出采集项目的采集备份数据库默认名是PE_Item.mdb,默认放在系统的根目录下。
导出采集项目 单击后台左侧管理导航的“采集管理”->“导出项目”,出现“采集项目导出”界面:
点选要导出的采集项目,单击“执行导出操作”按钮,出现成功导出提示信息:
!您可以更改默认的采集备份数据库名,以免被他人下载。
导入采集项目 单击后台左侧管理导航的“采集管理”>“导出项目”,出现“采集项目导入(第一步)”界面:
输入要导入的采集数据库的文件名后,单击“下一步”按钮,出现“采集项目导入(第二步)”界面:
在“将被导入的采集项目”中点选要导出的采集项目,单击“导入>>”按钮,出现成功导入提示信息。 !在“采集系统项目管理”界面中,您可以看到导入的采集项目,其状态为×。您要必须在“项目管理中”连续通过“采样测试” > “设置属性”这两步,才能通过审核。通过审核的采集项目状态栏显示√。
常见问题
问题:如果被采集的网页列表页面中,文章的标题链接作了js处理,如下面的链接内容:,如何填写链接开始代码和结束代码? 解答:在采集项目的链接设置中,填写:链接开始代码“'ReadNews.asp?NewsID=”;链接结束代码“&”;链接特殊处理选择重新定位“http://www.ertong.org/news/ReadNews.asp?NewsID={$ID}”,这样就可采到作了js处理的文章。http://www.itcfan.com/flash/123/替换为 /flash/(替换文件名随意);开始采集,并生成一个日期文本,这个文本就只有一个flash 绝对地址列表;用第三方下载软件,复制绝对地址列表后批量下载flash文件到本机的文件夹内;再用FTP将本机flash文件夹上传到空间相应的文件夹中即可。
问题:如何采集flash网站中的信息? 解答:建立采集项目,在正文中获取object;建立采集过滤高级过滤,如将
区域采集就是采集网站页面的某个固定区域,并将采集得来的区域代码保存为内联页提供给模板调用,刷新区域采集就可时时更新。 区域采集用途:打破大网站的垄断资源,举例:销售排行榜、股票信息、违章车辆、奥运奖牌等这些信息是不会提供接口的,通过区域采集就可时时更新最新报道。
1.进入后台,在“采集管理”中单击“区域采集管理”,右栏出现“区域采集管理”界面。
“区域采集管理”界面参数说明: ·管理导航:系统提供的区域采集管理导航操作。 ->管理首页:链接到区域采集系统项目管理首页。 ->添加区域采集项目:单击本功能链接添加新的区域采集项目。 ·“操作”列功能链接说明: ->修改:修改你指定的采集项目。 ->删除:选择您要删除的采集项目(可多选),选择后单击“删除”按钮即可删除选定的采集项目。 ->刷新:生成区域文件。 ->预览:预览采集区域文件效果。 ·操作按钮:系统提供将已选定的项目[刷新所有区域采集文件]操作按钮。
2.添加区域采集项目 ->在管理导航中单击“添加区域采集项目”功能链接,开始添加添加区域采集项目。 “添加区域采集项目”的界面参数说明: ·采集区域项目名称:填写自定义采集区域项目名称。 ·采集区域项目简介:填写您自己对本项目的一个简单介绍说明。 ·文件名称:指您自定义的文件名。 ·网站URL: 填写采集网站的的栏目列表页。 ·网页编码格式:提供GB2312、UTF-8和Big5三种编码格式。国内的网站基本都是GB2312,(默认选项可不选) 如果是香港,台湾网站请采用 Big5编码,如果是采集海外网站用UTF-8编码。 ·截取开始字符:填写所要采集页面某个固定区域代码的开始字符。 ·截取结束字符:填写所要采集页面某个固定区域代码的结束字符。 !请尽量用较少的字符(如一行内的字符),以保证字符的准确性。填写的代码必须保证是当前列表页唯一的。 ·截取代码预览:显示所截取固定区域代码的预览效果。本内容只有在修改区域采集项目时才会显示。 ·字符替换项目数:将截取的代码中相应的字符进行替换,以显示自定义的内容。 在此下拉框中可选择要替换项目的数量,不需要替换选择0,最多可替换9个项目。例如选择一个字符替换项目,下方就会出现两个文本框,<如图>假如您想将某些其他网站上标志性的文字或者样式替换成自己网站的内容,只需在“将字符:”后的文本框内输入将被替换的内容,在其后“替换为:”文本框内输入替换的内容即可。 ·截取内容链接的后缀名:设置区域采集项目中所需要保存到本服务器文件的后缀名。如将区域采集项目中的远程图片保存在本地服务器中。即采集的区域代码链接包含什么后缀名在这里添上即可,多个的话选用|分割,采集会将这些后缀的链接转变为绝对地址。
·过滤选项:过滤采集正文页中的html字符。 IFRAME:过滤内联。 Object:过滤Falsh和控件。 Script:过滤js、vbs等脚本。 Class:过滤类。 Div:过滤层。 Span:过滤行内元素Span容器。 Table、Tr、Td:过滤表格属性。 Img:过滤图片。 FONT:过滤字体定义。 A:过滤链接,可防止用户单击链接为其它网址。 Html:过滤全部Html代码。 ->设置好各项参数之后单击[确定]按钮。 3.单击[刷新所有区域采集文件]操作按钮即可更新区域采集的内容。 !区域采集可和定时设置功能同时运行。 4.代码调用:在“区域采集管理”界面中,将鼠标移至“调用代码”下的文本框内,系统会自动选中,只需复制代码到你模板的相应位置,区域采集就可以正常运行了。
定时功能提供了对网站计划任务的支持,指在指定的时间或设置基础上,自动执行相应任务。类似于windows的任务计划功能。同时,将采集和生成任务改由单独进程(窗口)控制,给网站管理工作带来更大的自由度。如果将定时采集和定时生成同时运行,可极大减轻站长的工作量,提高网站自动管理的效率。 定时采集:在启动定时功能后,系统可以自动在您指定的时间进行指定项目的采集工作。 定时采集和我们前面讲过的定时生成,这两个功能是互相独立的。如:只需要使用定时生成功能时,您可以不选择定时采集的项目。
定时采集设置 1.进入后台,在“采集管理”中单击“定时设置”,右栏出现“定时系统项目管理”界面
·在“定时系统项目管理”书签式操作界面中,单击定时采集选项卡: ->请选择定时采集的项目:在显示框中鼠标单击相应的项目名称 ,右侧有[选定所有]和[取消选定]两个按钮,可进行相关操作。然后保存定时设置。 !按住“Ctrl”或“Shift”键可以多选。 ·若尚未添加项目,则显示框中没有任何可选项目。您可以首先添加采集项目。具体操作步骤详见“采集功能”中的“采集管理”一节。 ·在显示框的下面,您可以看到一个“是否区域采集”的复选框,选中了本复选框就可以进行区域采集。 !区域采集详见下节“区域采集功能”的相关内容。 2.在设置好定时采集、定时生成和定时时间的相关设置后,就可以启用定时采集功能了。
!定时生成和定时设置的设定步骤详见“采集功能”中的“定时生成功能”一节。 启动定时的步骤:单击后台“采集管理”—>“启动定时”,或在“定时系统项目管理”的“管理导航”中单击“启动定时项目”功能链接启用定时。定时启用成功后,系统出现“定时项目已经开启成功”的提示。
在定时项目开启后,您可以切换浏览器去做其他工作,为了安全请开启 windows 安全认证以确保定时项目的正常运行。
!定时功能需要由用户端启动和运行,并且在运行过程中不能关闭正在运行的浏览器窗口。
QQ:726399 邮箱:zsuda@163.com 备案序号:粤ICP备06082963号