楼主还是再仔细研究一下解析html及xml的包吧,也许会有简洁的解决方式。
如果实在不行,还可以手工用正则表达式提取信息。在Linux、FreeBSD、Unix及类似系统的命令行下可以这样写一个shell脚本tmp.sh,(^M是特殊字符,采用ctrl-M输入)
[quote]
sed -n '/table c/, /<\/table>/{s,<[^>]*>, ,g; s,^M,,g; s,^[[:blank:]]*,,; /^$/d; p;}' tmp.htm | sed -n '/^¥[0-9]* ./s,^,@,; H;${g; s,\n,,g; s,@,\
,g; s,¥,,g; s,退改规则,"&,g; s,预订,&",g; p;}'
[/quote]
然后在R中调用,读取数据到data.frame中:
<br />
head(read.table(pipe("sh tmp.sh")))<br />
</p>
<br />
V1 V2 V3 V4 V5 V6 V7 V8<br />
1 430 3.8折经济舱/Z 所有舱位 09:30 虹桥机场 11:55 首都国际机场东航 MU5139<br />
2 430 3.8折经济舱/Z 所有舱位 13:00 虹桥机场 15:20 首都国际机场东航 MU5111<br />
3 570 5折经济舱/S 所有舱位 07:00 虹桥机场 09:20 首都国际机场东航 MU5137<br />
4 680 6折经济舱/L 所有舱位 12:00 虹桥机场 14:20 首都国际机场南航 CZ3908<br />
5 680 6折经济舱/R 所有舱位 12:45 浦东机场 15:10 首都国际机场东航 MU564<br />
6 680 6折经济舱/Q 所有舱位 20:50 浦东机场 23:10 首都国际机场国航 CA1862<br />
V9 V10 V11 V12<br />
1 机型: 323 170 退改规则 票量紧张 购票限制 预订<br />
2 机型: 333 170 退改规则 票量紧张 购票限制 预订<br />
3 机型: 333 170 退改规则 预订<br />
4 机型: 77A 170 退改规则 预订<br />
5 机型: 321 170 退改规则 预订<br />
6 机型: 330 170 退改规则 票量紧张 预订<br />
</p>