糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取

python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取

时间:2018-11-14 17:31:39

相关推荐

python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取

1.主题:百度新闻爬取

2.

python代码:

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

try:

r = requests.get(url,timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

def filllist(demo):

soup=BeautifulSoup(demo,"html.parser")

for i in soup.find_all("a"):

list1=i.attrs

print(i.text,end=' ')

print(list1['href'])

def main():

url="/"

demo=getHTMLText(url)

getHTMLText(url)

filllist(demo)

main()

代码完成之后就是这个样子

3.问题:在代码编写过程中,我遇到了很多问题,比如一开始用find函数总是出现错误,我也是看大家的代码才找到正确的打开方式。

另外开始是这样的,一下子所有的属性都打出

我的本意是只要链接的那部分属性,经过反复看视频和多次的实验终于解决了这个难题,形成了开头那个样子。很开心!

但是开头和结尾还是有多余的部分不知道怎么解决,求助!

如果觉得《python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。