工欲善其事,必先利其器。
爬取网页数据,一般都是采用页面Xpath和请求接口取得数据。两种方式都有弊端,Xpath 需要不停的定位和寻找数据的位置,接口不仅需要查找接口,而且需要加密解密。
demo用获取抖音的推荐接口,这个接口是加密的。接口地址是:/aweme/v1/web/aweme/post/(开发者工具中的网络标签可以找到接口)
之前分享过一次用代码片段(code snippet)的方式,有些人可能尝试过。对js的熟悉程度很高,门槛不低。但是不妨碍学习,因为你发现只需要变更url地址就可以获取到数据。
我们用代码片段的目的是要拿到加密后的请求地址。今天我们分享python的方式,用更简单的方式来处理数据。
依然是RPC的方式(在本地执行远程js方法,解决扣js补环境的问题),browser 是 selenium,定义一个类,代码稍微的规范一下。signatureurlget 方法里面是上面图的内容。init只是初始化了一个webdriver.ChromeOptions()。
运行一下,获取到加密的地址。请求加密的地址,获取到结果
这样就能直接使用返回的json做点自己想做的事情了,亲自试过了头条,抖音,巨量引擎,京东等网站。
以上就是抖音上查一个人的评论的全部内容,希望可以帮助到大家!
龙武士李小龙破解版
动作格斗108.87MB
下载保卫萝卜四
策略塔防170.9M
下载撞头运动车最新破解版
赛车竞速41.6M
下载饥饿的蟒蛇模拟器无限金币版
休闲益智53.6M
下载gtalcs手机版安卓版
飞行射击1948.23MB
下载途游游戏平台手游官网版
卡牌桌游70M
下载密室逃脱3手机版
冒险解谜30M
下载盲盒小当家
休闲益智19.7M
下载暗影格斗2内购版中文app
动作格斗142.7M
下载战争时代二破解版
策略塔防140M
下载