织梦dedecms采集过滤万能代码

经常在采集文章的时候,标题文字里面有空格,采回来后应用很是麻烦,所以需要在过滤处添加下面正则过滤。

一:过滤标题中空格

经常在采集文章的时候,标题文字里面有空格,采回来后应用很是麻烦,所以需要在过滤处添加下面正则过滤。

{dede:trim} {/dede:trim}

二:过滤来源作者中连接

在采集文章的时候,有的系统里面作者或者来源处都有连接,直接采集的话将连接采集回来了,然后由于这两个字段有限制,通常会造成需要采集的内容没有采集回来,所以需要在过滤处添加下面正则过滤

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

三:过滤文章内容中连接以及其他广告代码

实际应用中,我们只需要对连接、动画、调用等进行过滤。

一般的只有链接,使用二中的代码进行过滤就可以了,但是实际上一般的网站现在都在内容里面加有广告等,所以采取下面的过滤正则就可以完成过滤:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}

四:过滤GG广告代码

其实这个就是在上面的内容过滤,因为很常用到所以单独作为一个应用列出来:

{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}

最后终结一下,掌握了下面这个

{dede:trim}
{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:trim}<stong>{/dede:trim}
{dede:trim}</stong>{/dede:trim}

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

前期做 网站 上线之初 采集知识 dedecms 采集过滤与替换常用操作:点击 常用规则 ,选择要过滤的代码段,再编辑成我们需要的。 如果会文章简单采集了,接下来就需要过滤掉采集内容中的广告和链接及其它代码。一般的写法是{dede:trim}要过滤的内容{/dede:trim
看到很多网友都为织梦(DEDECMS)的采集教程头疼,的确,官方出的教程太笼统了,什么都没说,换个网站你什么都做不了,这个教程是最详尽的教程,让你一看即会! 第一步、我们打开织梦后台点击采集采集节点管理增加新节点 第二步、这里我们以采集普通文章为例
DEDECMS 设置采集规则时,保存 测试 时,提示读取 测试 网址失败, 不能 下载远程图片和资源, 不能 提取缩略图,是因为 服务器 上禁用了fsockopen() 与pfsockopen() 函数 造成的,在用fsockopen()或fsockopen() 的 地方 用 stream_socket_client()代替就可
关键字描述:规则 采集 主流
首先注意的是: 1、代码的唯一性 2、采集完成最好把采集的内容导入之后 把采集完的内容删除在进行下次采集 方法/步骤 1 登录后台,如下图所示: (点击采集,然后选择采集节点管理。) 2 (点击---增加新节点) 3 (选择内容模型----1,如果采集文章的话,就选
最近我教了大家采集的简单知识,但由于我们在采集目标站上没有分页的内容,所以今天我要和大家分享一下采集内容分页的方法。