糖尿病康复 > python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取

python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取

时间：2018-11-14 17:31:39

1.主题：百度新闻爬取

python代码：

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

try:

r = requests.get(url,timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

def filllist(demo):

soup=BeautifulSoup(demo,"html.parser")

for i in soup.find_all("a"):

list1=i.attrs

print(i.text,end=' ')

print(list1['href'])

def main():

url="/"

demo=getHTMLText(url)

getHTMLText(url)

filllist(demo)

main()

代码完成之后就是这个样子

3.问题：在代码编写过程中，我遇到了很多问题，比如一开始用find函数总是出现错误，我也是看大家的代码才找到正确的打开方式。

另外开始是这样的，一下子所有的属性都打出

我的本意是只要链接的那部分属性，经过反复看视频和多次的实验终于解决了这个难题，形成了开头那个样子。很开心！

但是开头和结尾还是有多余的部分不知道怎么解决，求助！

如果觉得《python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。