自己动手丰衣足食-开着火车做TXT书

我说的火车指的是火车采集器,之前用它做了本杭州公交线路词典,很傻瓜很方便。
今天在豆瓣上找书看,有的书没有txt或者电子版,新浪读书频道上面到是有,一页一页复制忒人肉了点了吧。
这时候神奇的火车采集器登场了,真是又傻瓜又愉快,一分钟样子TXT文本就可以出来了,自己稍微排版下就可以了。
如果有兴趣,可以看看我弄的:
首先安装,当然先下载火车采集器(点我去下载)
安装好了去新浪读书频道,找想看的书的页面吧,就是那种有所有章节的页面,我要看的书是《集装箱改变世界》
页面是:
http://book.sina.com.cn/nzt/live/fin/jizhxgbsj/index.shtml
接着打开火车采集器。基本上是这样的,你可以新建一个站点(为了看起来清爽点),名称之类随便填,因为我们保存在本地,用不到在线发布的功能.


采集网址了
接着在你点新建的站点,在下面新建任务,随便填一个任务名。接着在“采集网址规则”——开始采集网址——向导添加——填进去刚才找到的书的主页网址,我的是http://book.sina.com.cn/nzt/live/fin/jizhxgbsj/index.shtml,按添加。

因为页面上面有很多不相关的链接,所以要把他们都去掉,看了看具体章节的页面的网址都是
http://book.sina.com.cn/nzt/live/fin/jizhxgbsj/30.shtml
这样的形式,前面的网址都一样,就是在最后结尾是以 “数字.shtml"的形式结尾的,所以还需要在”文章内容的页面地址必须包含“这里添加
http://book.sina.com.cn/nzt/live/fin/jizhxgbsj/(*).shtml
(*)好像是通配符,代替变化的数字,直接用"http://book.sina.com.cn/nzt/live/fin/jizhxgbsj/"可能也可以(不确定)
接着可以”开始测试网址采集“,可以看到很多网址都被抓出来了。确定没问题了,进下一个标签页。
采集内容规则
左边有很多标签,都是在线发布到网站上用的,我只保存的本地文件。作者,时间,出处的标签都删掉它。
右边有采集页面测试的区域,把具体书的一张节的页面的网址填进去,“http://book.sina.com.cn/nzt/live/fin/jizhxgbsj/30.shtml” 测试,就把网页的html全部抓过来了。
先搞标题

【标题】: 码头上的拥堵(9)_读书频道_新浪网
"_读书频道_新浪网"这几个字看着碍眼,可以双击左边的"标题"的标签进去设置。
在"内容排除"里面添加"_读书频道_新浪网" 就可以把这几个字去掉了。
然后搞内容
看旁边的html,找到正文的地方。
残酷的工作条件、经济上的不确定性以及码头工人生活的闭塞.......
在新建的生活设施大楼里配备了单人的储物柜和淋浴间,而私人雇主一向认为这些设施不该由他们提供。17
基本上是这样的形式,那我们就可以到"内容"的标签里面设置了,
开始字符串:
结束字符串:
设置好了,测试一下,看一下。还有一个DIV的代码在里面,那就在html标签里面把DIV勾上,这样抓出来的内容就没有闲杂代码了。
发布内容了
第三个标签“发布内容设置”
勾选方式二 “保存为本地文件” 选择txt,选择保存文件夹。
最后"文件保存及运行设置"
成功定义发不到哪定义为发布成功—— "二.保存为本地文件"
保存——OK 右键点击任务”开始任务采集“ go 喝水去吧
排下版
导出的文件都是一节一个段落,可以用word打开,把不要的词都替换掉(比如缩略图,内容之类的)
之前段落中还有
的标签,所以换行的地方都有很多空格,可以复制出来用word替换成段落符号,然后段落前缩进调整一下再保存就OK了。吼吼,看看我弄的
《集装箱改变世界》.txt
最后发现一个问题,新浪上面的书有的不是足本,这可惜了。不过这招也可以用在腾讯读书频道,搜狐腾讯频道等一切以文本为基础的看书网站。
暂无评论