php 扒取网页数据-白红宇

php 扒取网页数据

阅读量：6249 次

发布时间：2019-06-22

本文共 1265 字，大约阅读时间需要 4 分钟。

扒取方法

public function index()    {        $url = 'http://www.dytt8.net/';       // $url = 'Public/txt/movies.txt';        $content = file_get_contents($url);        $content = iconv("gb2312", "utf-8//IGNORE",$content);        $reg = "|
    
     (.*?)<\/div>|is";//正则匹配div        $res = preg_match_all($reg, $content, $match);        $count = count($match[1]);        //有数据        if($count)        {            $arr = array();            $array = array();            for($i=0;$i<$count;$i++)            {                $a = "|
     
      ]*>(.*?)<\/a>|is"; //匹配value                $patten="/
      /";//匹配href值                preg_match_all($a, $match[1][$i], $mat);                preg_match_all($patten, $match[1][$i], $href);                foreach($mat[1] as $key=>$val){                    $array = array(                         'href'=>'http://www.dytt8.net/'.$href[1][$key],                         'name'=>$val,                         'ctime'=>time(),                    );                    array_push($arr,$array);                }            }            $res = $this->Movies->addAll($arr);            if($res)            {                echo '抓取成功！';            }            else            {                echo '抓取失败！';            }        }    }

转载地址：http://jdgia.baihongyu.com/

你可能感兴趣的文章

阿里云出征CES：来AWS大本营展现全球布局

查看>>

Go 语言 Excel 类库 Excelize 2.0.0 版本发布

查看>>

开源中国 iOS 4.6.0 发布！软件页大改版，灰名单功能上线

查看>>

Redkale 2.0.0.alpha1 发布，Java 分布式微服务框架

查看>>

区块链凉了？我们来看一些真问题

查看>>