获得并下载网页中的文件列表

办公室的一位师姐搜到怎么从网页中获得文件链接的方法,觉得这是一个很常用的东西。记录下来以备遗忘。

首先可以通过lynx来获得网页中所有的下载链接。lynx是一个文字版的浏览器,添加参数可以获得网页中的链接。当然实际上我们也可以使用Python中的urlib2实现类似的功能,不过相比而言复杂太多。

具体的命令可以是

lynx -dump XXXXX.xyz | grep fits$ | awk '{print $2}' > url.txt
wget -i url.txt

这样简单两行命令可以过滤并下载指定类型的文件。

参考网页:

http://tomrose.iteye.com/blog/1055640

Visits: 140

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

*