SEO如何处理采集内容

采集内容对SEO是否有效? 有人说采集内容对搜索引擎友好性不高,不容易获得排名,这个是肯定且必然的。 对大多站点,上采集内容必定不如UGC、精心编辑过的内容来的效果好。但是,现在搜索引擎能获取到的原创内容量已经不如之前多了,毕竟内容生产平台已经转

采集内容对SEO是否有效?

有人说采集内容对搜索引擎友好性不高,不容易获得排名,这个是肯定且必然的。

对大多站点,上采集内容必定不如UGC、精心编辑过的内容来的效果好。但是,现在搜索引擎能获取到的原创内容量已经不如之前多了,毕竟内容生产平台已经转移了,早就不集中在网站上了。另外几个搜索引擎之间还相互抓,何况小站点呢。

所以采集内容依旧是有效的,只不过对采集内容后加工的成本越来越高了。

采集内容的后加工

担心采集内容效果差,或者容易被K,主要还是看怎么对内容后加工。打个比方:

好比从沃尔玛拿了一筐猕猴桃,原封不动的放到家乐福,顶多还只能是原来的售价,因为猕猴桃还是猕猴桃,商品不变。但把猕猴桃榨成汁(形态变化),加点水分瓶装(粒度变化),再放到711里卖(平台变化),售价可以翻几倍(价值增益)

为啥?

  • 因为形态变了,果汁是不同于水果的商品,且果汁更容易吸收

  • 因为平台变了,711定价本身就比沃尔玛家乐福要高一点

  • 因为粒度变了,一生二二生三三生万物

  • 前三者的变化,导致价值的翻倍

如果把“采集内容”比作“猕猴桃”,则对“采集内容”的后加工策略如下:

形态

组织内容方式无穷多,无论对同一个内容掰开了揉碎了分发到多处、还是多篇相关内容聚合到一处、还是其他方式,都可以让搜索引擎更容易接受。

平台

术业有专攻,从新浪抓一些垂直行业内容放到对应行业的垂直网站,肯定比放到新浪更合适。把专业化的内容放到专业的网站。

粒度

同样是抓取的内容,粒度越细,在搜索引擎中的原创度越高。举个极端的例子,星座股票起名八卦算命生辰八字风水算命qq图片动态图….此类型的站,哪个内容不是重复的?

增益

采集的目的在于补全内容上的漏洞,使同主题的内容比别人更加丰富饱满充实,则产生了页面内容价值上的增益。

采集内容完整流程

关于“采集内容处理”,从抓取到上线整个流程看,要搞定以下问题:

  • 采集内容从哪来?

  • 采集内容怎么抓?

  • 采集内容如何处理?

采集内容从哪来?

对于正经做站且做正经站的,定向采集、买专业数据更合适。

定向采集,只抓几个特定网站的特定范围,与本站内容漏洞高度相关的。

对于不正经做站的,可选择的范围就多很多了,沾点边的内容都可以抓,讲究量大,所以不需要限定某几个站的抓取,有人叫泛采集

设置几个主题,直接抓各种大平台的搜索结果便可。大平台指什么?海量内容集中的地方:各类搜索引擎、各类门户、今日头条、微信微博、优酷土豆等等

采集内容怎么抓?

  • 定向采集:

略,平常怎么抓就怎么抓。

  • 泛采集:

定向爬虫受限于网页模板,在此基础上加上几个内容分析算法来提取内容,改成通用爬虫。

好多浏览器插件,如印象笔记之类的,有好多类似“只看正文”的功能,点一下只显示当前浏览网页的正文信息,很多人已经把此类算法移植到python、php、java等编程语言上,搜索下便是。

采集内容如何处理?

两个先后过程:

  • 对原始内容的处理

  • 对处理后内容进行组织

对原始内容的处理

百度专利说过,搜索引擎除了根据正文判断内容相似性,也会根据html的dom节点的位置和顺序来判断,如果两个网页正文的html的结构相似,也可能当做重复内容来处理。

所以,采集的内容不能直接拿来就上,要对源码清洗一下。每个人方式各异,个人一般做如下处理:

html清洗

  • 保留主要标签:p、img

  • 删除标签中不重要的属性

  a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip() 

  b = re.sub(r'<p[^>]*?>','<p>',a)  

  newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()

删除中文字数 < 100字的

  text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)  

  text2 = re.sub('<[^>]*?>','',text)  

  words_number = len(text2) 

去除垃圾信息

如“XXX网小编:XXX”、邮箱网址等。。。

对处理后内容进行组织。

在百度站长平台上看到这篇文章写的比较好,转载过来。希望能够帮到大家,原作者未知!

 
本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

网站优化如何运用事件舆论来做网络营销,今天跟版网小编来告诉你以下几点做事件关联起来做好文章,从而获得流量 1、要利用网络热门事件推广网站 首先要找到热门事件和重庆网站建设的关联性。我们怎么才能把自己的网站和热点事件进行联系呢?这是很多人想问的。
做了HTTPS站点,在平台如何提交数据,如何使用工具,下面再给大家细细讲解: 1 、 HTTPS 站点请先使用平台 HTTPS 认证工具,经过平台工具验证后,可加速搜索对 HTTPS 和 http 站点间的抓取切换 2 、平台已全面支持 HTTPS 站点, HTTPS 站点可使用平台所有工
2015年5月25日,百度站长平台发布公告,宣布全面放开对https站点的收录,https站点不再需要做任何额外工作即可被百度抓收。采用了本文之前建议的https站点可以关闭http版,或者将http页面跳转到对应的https页面。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
在SEO优化中我们最烦的最怕的莫过于网站改版了,网站改版后一定会被降权,降权后恢复的时间长短取决于SEOer的技术深浅!当然那种大流量的门户网站除外,那种网站百度对他们都是开了后门的。 大龙主要说的是企业网站或者是一些个人网站。 一旦网站被搜索引擎
官网保护工具自推出以来,受到广大站长们关注,后台申请数据量更是高达 20 多万,审核这么大量的需求词,审核员也发现了一些问题,希望再次给到站长们提醒,请拿好小本子记要点: 1 、官网保护的审核时间多久? 答:官网保护的审核周期是十五个工作日内;如
给你一个域名,让你策划一个网站,和给你一片土地,让你规划出一个城市,除了成本不同之外,道理是一样的。 这些年的实战操作,让我真的领会到,一个大型网站后期能否获得目标流量,上线前所做的工作有多么重要。 那上线前我们需要做哪些工作? 1、关键词挖掘