办公室的一位师姐搜到怎么从网页中获得文件链接的方法,觉得这是一个很常用的东西。记录下来以备遗忘。
首先可以通过lynx来获得网页中所有的下载链接。lynx是一个文字版的浏览器,添加参数可以获得网页中的链接。当然实际上我们也可以使用Python中的urlib2实现类似的功能,不过相比而言复杂太多。
具体的命令可以是
lynx -dump XXXXX.xyz | grep fits$ | awk '{print $2}' > url.txt wget -i url.txt
这样简单两行命令可以过滤并下载指定类型的文件。
参考网页:
http://tomrose.iteye.com/blog/1055640
Visits: 140