热搜：编程 Python Microsoft 编程语言 C++

python提取页面内url列表的方法

发布时间：2024-04-02 16:10:09 来源：网络

.

人生路上我们孜孜不倦，尽力拼搏，生活途中勤勤恳恳，努力追寻！停止悲伤，机会从来不为任何人驻足。

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下：

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",rel="nofollow noopener noreferrer" href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

以上就是python提取页面内url列表的方法。有志者，事竞成，破釜沉舟百二秦关终归楚；苦心人，天不负，卧薪尝胆三千越甲可吞吴。更多关于python提取页面内url列表的方法请关注haodaima.com其它相关文章！

以下您可能有感兴趣的文章:

标签： 页面内 python

为您推荐

Python之列表推导式最全汇总(下篇)

前言网传的七天学Python的路线如下，我觉得可以在学过此表中前几天的内容后，就可以回头来学习一下列表推导式：它综合了列表、for循环和条件语句。第一天
04-08
Python网络爬虫神器PyQuery的基本使用好代码教程

风景旧曾谙，阳春三月归;烟云十年后，又见江南花。夜晚的这一刻，我独赏风景。有很多人觉得，一个人旅行好无聊。可我却偏偏喜欢一个人。
07-09
python基于SMTP协议发送邮件

与此形成鲜明对比的是另一位巨星——葡萄牙队的c罗。上赛季他虽说有42个进球，但经统计，他的效率不到10%。在这个习惯统计学的社会，c罗的42球从深层分析充满了水分。此外，他的球场道德也属于低劣派，假摔贯穿全场，无处不在，江湖人送外号 "跳水运动员 "，桃色风波更是五花八门，而两者后果呢？看看吧：梅西凭借着08—09赛季带领巴萨取得西甲、国王杯、欧洲冠军联赛三冠王，取得433分，获得金球奖，而c罗只有他的一半不到！
05-24
python爬虫正则表达式使用技巧及爬取个人博客的实例讲解

纯洁美丽。它化做雪花，用自己洁白的生躯覆盖在大地上。此时，一切都是银装素裹，一副冰清玉洁的模样。光秃秃的树枝上缀满了朵朵洁白的 "梨花 "，风一吹，花儿纷纷飘落，好似一只只银白色的蝴蝶在空中偏偏起舞。 "忽如一夜春风来，千树万树梨花开 "，这句诗不正是赞美冬天的吗？
07-28
opencv用VS2013调试时用Image Watch插件查看图片

叶子小小的，碧绿碧绿的，花儿小小的，好可爱。紫红色的玫瑰花在风中翩翩起舞，玫瑰花树枝上还有调皮又可爱的小刺，你可要当心哦！你看，那个大仙人球旁围着8个小仙人球，好像一家人聚在一起，多欢快呀！
12-25