开发者

利用python爬取城市公交站点

目录
  • 页面分析
  • 爬虫
  • 数据清洗
    • Excel PQ 数据清洗
    • python数据清洗
  • QGIS坐标纠偏
    • 导入csv文件
    • 坐标纠偏
  • 总结

    利用python爬取城市公交站点

    页面分析

    https://guiyang.8684.cn/line1

    利用python爬取城市公交站点

    利用python爬取城市公交站点

    爬虫

    我们利用requests请求,利用BeautifulSoup来解析,获取我们的站点数据。得到我们的公交站点以后,我们利用高德api来获取站点的经纬度坐标,利用pandas解析json文件。接下来开干,我推荐使用面向对象的方法来写代码。

    import requests
    import json
    from bs4 import BeautifulSoup
    import pandas as pd
    ​
    ​
    class bus_stop:
     ## 定义一个类,用来获取每趟公交的站点名称和经纬度
     def __init__(self):
     self.url = 'https://guiyang.8684.cn/line{}'
     self.starnum = []
     for start_num in range(1, 17):
     self.starnum.append(start_num)
     self.payload = {}
     self.headers = {
     'Cookie': 'JSESSIONID=48304F9E8D55A9F2F8ACC14B7EC5A02D'}
     ## 调用高德api获取公交线路的经纬度
     ### 这个key大家可以自己去申请
     def get_location(self, line):
     url_api = 'https://restapi.amap.com/v3/bus/linenhttp://www.cppcns.comame?s=rsv3&extensions=all&key=559bdffe35eec8c8f4dae959451d705c&output=json&city=贵阳&offset=2&keywords={}&platform=JS'.format(
     line)
     res = requests.get(url_api).text
     # print(res) 可以用于检验传回的信息里面是否有自己需要的数据
     rt = json.loads(res)
     dicts = rt['buslines'][0]
     # 返回df对象
     df = pd.DataFrame.from_dict([dicts])
     return df
     ## 获取每趟公交的站点名称
     def get_line(self):
     for start in self.starnum:
     start = str(start)
     # 构造url
     url = self.url.format(start)
     res = requests.request(
     "GET", url, headers=self.headers, data=self.payload)
     soup = BeautifulSoup(res.text, "lxml")
     div = soup.find('div', class_='list clearfix')
     lists = div.find_all('a')
     for item in lists:
     line = item.text  # 获取a标签下的公交线路 
     lines.append(line)
     return lines
    ​
    ​
    if __name__ == '__main__':
     bus_stop = bus_stop()
     stop_df = pd.DataFrame([])
     lines = []
     bus_stop.get_line()
     # 输出路线
     print('一共有{}条公交路线'.format(len(lines)))
     print(lines)
     # 异常处理
     error_lines = []
     for line in lines:
     try:
     df = bus_stop.get_location(line)
     stop_df = pd.concat([stop_df, df], axis=0)
     except:
     error_lines.append(line)
    
     # 输出异常的路线 
     print('异常路线有{}条公交路线'.format(len(error_lines))) 
     print(error_lines)
    
     # 输出文件大小 
     print(stop_df.shape)
     stop_df.to_csv('bus_stop.csv', encoding='gbk', index=False)
    

    利用python爬取城市公交站点

    数据清洗

    我们先来看效果,我需要对busstops列进行清洗。我们的总体思路,分列->逆透视->分列。我会接受两种方法,一是Excel PQ,二是python。

    利用python爬取城市公交站点

    利用python爬取城市公交站点

    Excel PQ 数据清洗

    这一方法完全利用PQ,纯界面操作,问题不大,所以我们看看流程就可以了,核心步骤就是和上面一样的。

    利用python爬取城市公交站点

    python数据清洗

    ## 我们需要处理的busstops列和ID列
    data = stop_df[['id','busstops']]
    data.hehttp://www.cppcns.comad()
    

    利用python爬取城市公交站点

    ## 字典或者列表分列
    df_pol = data.copy()
    ### 设置索引列
    df_pol.set_index('id',inplace=True)
    df_pol.head()
    

    利用python爬取城市公交站点

    ## 逆透视
    ### 释放索引
    df_pol.reset_index(inplace=True)
    ### 逆透视操作
    df_pol_ps = df_pol.melt(id_vars=['id'], value_name='busstops')
    df_pol_ps.head()
    

    利用python爬取城市公交站点

    ## 删除空行
    df_pol_ps.dropna(inplace=True,axis=0)
    df_pol_ps.shape

    利用python爬取城市公交站点

    ## 分列
    ### 设置line_id
    df_parse['line_id'] = df_pol_ps['id']
    df_parse = df_pol_ps['busstops'].apply(pd.S编程客栈eries)
    df_parse
    

    利用python爬取城市公交站点

    我这里补充一下,我们一般还要对location列进行分列,把Long,lat分列出来,但是我们这里就不做http://www.cppcns.com了,都是重复劳动,而且我用的pq清洗,快很多。

    ## 写入文件
    df_parse.to_excel('贵阳市公交站点分布.xlsx', index=False)</pre> 

    QGIS坐标纠偏

    QGIS基础操作,我就不说了,顺便说一下QGIS对csv格式支持较好,我推荐我们导入QGIS的文件为csv格式的文件。

    导入csv文件

    利用python爬取城市公交站点

    坐标纠偏

    以前说了很多,我们高德地图上的坐标是GCJ02坐标,我们需要转成WGS 1984坐标,我们在QGIS里面需要借助GeoHey插件。

    利用python爬取城市公交站点

    利用python爬取城市公交站点

    看一下这个坐标纠偏,区别还是很大。

    总结

    总的来说,我们还是推荐使用使用面向对象的方法来写代码,还有就是异常处理必不可少。我这次面对的问题是某些公交路线,高德API里面没有,这样就会异常,所以这次的异常处理不可缺少。从数据处理的角度来看,这次从速度和方便来说,pq完胜python,我推荐大家数据清洗就用pq,有些时候,我都会给出多种处www.cppcns.com理方法,pq看起来复杂,但是其实pq是最简单的,总之,我高度推荐pq进行数据清洗。还有一点,python里面的索引比较麻烦,这次我要保证和bus_stop_id和line_id,这样公交站点表和公交路线表才可以连接,其实这就是SQL里面的外键连接,所以我在python数据清洗的时候,涉及到大量的索引操作,在pq里面没有这么复杂。说到这个索引,感谢我的SQL老师,当年她讲解SQL里面的索引,约束,仿佛就在昨天。高德的这个key大家可以自己去申请,这个key可能有数量的限制。我接下来会把代码上传到Gitee,这个代码的管理还是很重要的,自己也学习一下代码的管理。接下来,感谢小学妹给的这个小项目,也感谢崔工对我的鼓励,其实,我最近很忙,不太想写文章的。最后,感谢认识的一个小学妹,她真的蛮优秀的,最后希望大家2021年最后这一个月万事如意,开开心心,也希望我们都有一个光明的未来。还有一个坑,我建议大家在简书上写文章,真的本地的话,图片上传有问题。

    以上就是利用python爬取城市公交站点的详细内容,更多关于python爬取城市公交站点的资料请关注我们其它相关文章!

    0

    上一篇:

    下一篇:

    精彩评论

    暂无评论...
    验证码 换一张
    取 消

    最新开发

    开发排行榜