问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
你好,欢迎来到懂视!登录注册
当前位置: 首页 - 正文

关于PHP正则提取网页信息

发布网友 发布时间:2022-04-19 20:44

我来回答

3个回答

热心网友 时间:2023-07-02 16:36

用 int preg_match( string pattern, string subject [, array matches ] ) 来处理,实现过程我就不写了,没有验环境,下面说下思路。

用$str读入采集结果,preg_match_all("/<[^>]+.+>/", $str,$split_word)分割采集结果,得到数组$split_word,结果应该是这样子的:
$split_word[0]="<li><table><tr>"
$split_word[1]=" <td width="574"><a href="detailnew.jsp?id=803088">驻村干部</a></td>"
……
然后逐个对数组元素进行查找,首先循环查找条件1 id号:
preg_match("/id=\d+/i",$split_word[n],$id_value)
匹配的结果是数组$id_value,类似$id_value[0]="id=xxxxx",如果你要提取纯数字,还要再对这个结果提取一次。
其余字段提取仿照上面操作,对应的正则表达式:
链接标题先提取/<a[^>]+>\w+<\/a>/i, 然后再从结果中提取< /[x80-xff>]{4,}/i (即匹配四个汉字以上,汉字GBK/GB2312编码是:[x80-xff>],UTF-8编码:[x{4e00}-x{9fa5}]+/u,这一点要注意)

……

思路就是这样,比较烦人,没有下一子能就匹配所有信息的正则表达式。

热心网友 时间:2023-07-02 16:36

preg_match_all("/href=\"detailnew.+?id=(.+?)\">(.+?)<\/a>.+?href=\".+?c=(.+?)&d=(.+?)\">(.+?)<\/a>/s", $html, $find); //$html是你采集的内容
for($i=0; $i<count($find[1]); $i++){
$arr_id[] = array($find[1][$i], $find[2][$i]);
$arr_c[] = $find[3][$i];
$arr_d[] = array($find[4][$i], $find[5][$i]);
}
print_r($arr_id);
echo '<br/><br/>';

print_r($arr_c);
echo '<br/><br/>';

print_r($arr_d);

热心网友 时间:2023-07-02 16:36

答案:
$str = ’‘; //你的内容;

preg_match_all('|detailnew.jsp\?id=(.*)">(.*)</a>.*&c=(.*)&d=(.*)">(.*)</a>.*<td width="97">(.*)<|isU',$str,$main);
$id_array = $main[1];
$id_link_txt_array = $main[2];
$c_array = $main[3];
$d_array = $main[4];
$c_d_link_txt_array = $main[5];
$date_array = $main[6];
php正则表达来获取html中的部分内容

(4)preg_split -- 用正则表达式分割字符串 2. 一般来说,如果用正则来获取匹配内容,一般使用 preg_match/ preg_match_all 函数。补充回答:正则表达式如下:'%功能(.*?)%si'以下是代码,经测试,运行正常:&lt;?php str = '功能这里面是要获取的内容,不能确定什么字符,可能是数字(123456…)字...

php正则表达式提取网页数据(无数据是用-表示的),/(\d+)\.(\d+)/is...

是要获取 所有 XXXXXXXXXXX里面的 数值 ,还是 这个页面 里面 的所有数值?str =&lt;&lt;&lt;DEO 客胜 22.90 290.74 -&lt;/

PHP抓取网页指定内容

抓取网页内容用 PHP 的正则 用JS每隔5分钟刷新当前页面---即重新获取网页内容 注: $mode中---更改为所需内容(如 $mode = "#&lt;a(.*)#";&gt;获取所有链接)window.location.href="http://localhost/baidu/refesh.php";中的http://localhost/baidu/refesh.php 更改为自己的URL---作用:即刷新当...

PHP如何正则表达式提取网页内容

如果你要和之间的所有源码,用 preg_match 就可以,不用preg_match_all ,如果你要里面的所有的 标签中的内容,可以用preg_match_all //提取所有代码 pattern = '/(.+?)/is';preg_match($pattern, $string, $match);//$match[0] 即为和之间的所有源码 echo $match[0];//然后再提取之间...

php 获取网页的全部URL 的正则如何写(解决后我追加50分)

&lt;?php url = 'xxxxx';//要提取的网页地址 content = file_get_contents($url);preg_match_all("/&lt;a ([^&lt;]*?)&lt;\/a&gt;/i",$content,$links);print_r($links);//$links是匹配后的结果 ?&gt;

php如何获取网址中的参数

用正则可以这样 preg_match('/id=(\d+)/',$_SERVER["REQUEST_URI"],$m);//$_SERVER 这个表示当前网址url print_r($m[1]);exit;或者用parse_url()及parse_str()函数 cur_q=parse_url($_SERVER["REQUEST_URI"],PHP_URL_QUERY);parse_str($cur_q,$myArray);print_r($myArray["id...

php正则提取页面body和body之间的内容

/(.*?)&lt;\/body&gt;/is .*?最小匹配,如果去掉?号,则默认是贪婪匹配 而前面加了?:则表示.*?所匹配的结果不会保存在缓冲区内

php正则提取网页表格内容,并插入mysql数据库,请问我的代码哪里有问题...

1.上面是$contents,下面怎么用$content[$i]呢 2.preg_match_all匹配到的东西在第三个参数$match里面,是数组。可以用var_dump($match);看看是否匹配到东东了。

PHP获取网站中的信息并存入数据库

用PHP自带函数就可以实现,首先要过去对方的网页信息,用 file_get_contents();参数是对方的URL地址,这个函数返回是一个字符串你想要的东西就在这个字符串中了 接下来就可以针对这个字符串做处理了,说下思路,正如你这个问题想获取到航班号起飞时间,在这个网页中应该有很多相同的标签元素,它们都有共同...

正则表达式 提取 html 标签的内容

string str = File.ReadAllText("D:\\1.txt", Encoding.Default);str = Regex.Match(str, @"(?is)(?&lt;=&gt;)[^&lt;&gt;]+(?=&lt;)").Value;Console.WriteLine(str);

声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
几何e值得买吗 我英语80分左右总是上不去(100分满分)怎么办... 刚绣好的十字绣怎么洗?画过格的 台州温岭第一人民医院有儿科吗 北山职业技术学校有哪些专业? 在温岭市找一份夜里兼职的驶机工作我现白天在厂里开车,想多收入,找... ...网线连接了客厅的路由器再连接到电脑上,卧室用的是和客厅路由器分... ...器放在客厅看电视用,卧室里面我还得再牵一根网线怎么办? ...台式 路由器在客厅距离太远拉网线不方便 卧室里有网线插口 卧室的网 ... 在临海社保缴费了一年后离开没办转移,去宁波参加社保 后又回临海参加社... think php 如何获取&lt;head&gt;中的&lt;title&gt; 在浏览器中... PHP怎样调用文章标题作为页面&lt;title&gt;&lt;/title&gt; 有没有什么好的PHP获取网页meta的源码或写法 php网站,全站都是一个标题,文章页面的标题也是首... phpweb里怎么设置网站的标题、关键词和描述 【【【求助PHP语言,如何获得title的值】】】】】... 请问php如何提取出网页目录下文件的所有&lt;title&gt; 试用PHP+mysql远程获取某网页文章标题及内容,并保... php的采集程序,怎么截取网页中的链接及标题 php正则提取网页源码中的 商品标题 求一个简易的php爬虫提取网页的title php获取指定网页内容 php如何通过地址去获取一个网页的标题title里面的内容 php获取网页title问题 php获取指定网站的文章标题以及连接 vivoY3和vivoY97那个好一点? 怎么将caj文件转化为word 怎么把CAJ的格式转为word的呀,要在word里进行编辑,... 怎样将caj里的文字转换成word文档 CAJ转换成Word怎么转换?感觉好难 php抓取网页的内容,标题的文字不能保存到mysql中 php用正则获取html标签内容 黑人嘻哈电脑壁纸 电脑桌面1280X768的HIPHOP高清壁纸谁给个? 求个魔兽世界部落嘻哈风格穿西服的那个壁纸,高清... 求一张1920*1080的电脑壁纸 Nirvana封面 win7的一些个人问题,求助 两个锁屏壁纸哪一个更好看? 求潮牌的电脑壁纸 比如hba什么的 1920x1080 求一张电脑1920*1080的骂人壁纸,越毒越好 哪里打包下载高清、超清图片? 一个人是不是懂嘻哈文化,通过哪些地方可以判断出来? 求搞笑 雷人的电脑桌面壁纸 求这个图片的电脑高清壁纸 求一张满屏幕神烦狗的电脑壁纸 谁知道这个电脑壁纸叫什么?在哪下载 求那台电脑上的壁纸 原图 怎么知道一个人是不是懂嘻哈文化? 求图出处,求电脑版壁纸,超清大图,谢谢
  • 焦点

最新推荐

猜你喜欢

热门推荐