12/28/2008

解决curlftpfs 乱码的问题

只要执行curlftp -o codepage=GBK ftp://username:passwd@your ftp address/ /mount_directory_name即可

11/07/2008

抓取百度mp3五百强失败了

徐老师有在他的博客中介绍了怎样抓取google trend的音乐。详见http://blog.youxu.info/2007/04/10/cool-linux-1/。然后布置了一道抓取baidu mp3五百强的作业。我试了试没有成功,只能抓取歌手+歌曲的名字是这样些的

首先wget http://list.mp3.baidu.com/topso/mp3topsong.html?id=1?top2 -o >music.list
这里要注意的是,这个编码是utf8的编码,在一些终端里面的中文显示为乱码,因为他们的编码是gb2312,所以我们可以用下面的命令来转换之
iconv -f gbk -t utf8 music.list > music_gb.list

然后

echo music_gb.list|tr "\n" " "|egrep -o "target=_blank>[^<]*"|tr ' ''\t'|cut -f 2 |sort |uniq > music.final.list

最后就能得到百度mp3 top 500 的歌手 和 歌曲的名单。

有时间再改进以下来只抓取歌曲吧.
=============================================
发现这样就可以了
echo music_gb.list|grep "target=_blank"|grep "$" >music_temp.list
echo music_temp.list|grep -o "target=_blank>[^<]*"|tr '>' '\t'|cut -f 2|sort |uniq >music.final.list

这样就只有歌曲名单了,名单如下

Angel
lydia
My Love
NANANA
super star
Thank You
一个像夏天一个像秋天
一剪梅
一千个伤心的理由
一千零一夜
一帘幽梦
一眼万年
一颗心的距离
万水千山总是情
下雨天
不值得
不死心还在
不痛
世界末日
东方美
两个人
两个人的烟火
中国话
为你写诗
乔克叔叔
亲密爱人
人鱼的眼泪
今天
今生共相伴
他还是不懂
传说

你不是真正的快乐
你的背包
你知道我在等你吗
依赖
依靠
信徒
候鸟
假如
傻瓜

兰亭序
军中绿花
冰雨
出头天
加速度
北极星的眼泪
千山万水
半糖主义
古灵精怪
只对你有感觉
右手边
吻别
告别的时代
命中注定
回家
夏天的风
夜曲
夜的第七章
大海
天亮了
好久不见
如果还有明天
婴儿
宇宙小姐
安妮
安静
安静了
宝贝对不起
寂寞还是你
小乌龟
小小
左边
彩虹
彩虹的微笑
心如蝶舞
心雨
忘情水
思念
恋人未满
想太多
我不后悔
我不配
我们怎么了
我们的歌
我们的爱
我只在乎你
我可以
我和你
我和草原有个约定
我是一只小小鸟
我是不是该安静的走开
我爱你
我真的受伤了
我难过
承诺
摇滚怎么了
放生
故乡的云
敢问路在何方
新不了情
时光机
明天会更好
明天过后
昨夜星辰
暧昧
月光手札
月半弯
期待爱
木槿花
来生缘

梁山伯与茱丽叶
梦里花
死心塌地
每次都想呼喊你的名字
水手
永远不回头
沿海公路的出口
活着
流沙
流浪诗人
浏阳河
浪漫窝
海阔天空
漫步人生路
爱人
爱太痛
爱情转移
爱情里没有谁对谁错
爱我的人和我爱的人
爱无界
父亲
牛仔很忙
独一无二

玩酷
男朋友
相信爱
相思风雨中
真的爱你
知心爱人
稻香
窗外
笑忘书
笑忘歌
笨小孩

简单爱
纤夫的爱
约定
练习
给我一首歌的时间
自由飞翔
舍不得
花好月圆夜
花海
菊花台
落叶归根
蛇舞
蜗牛
让我爱你
说好的幸福呢
谎言
谢谢你的爱
走火入魔
路一直都在
过火
迷迭香
逍遥叹
那些花儿
酒干倘卖无
释放
隐形的翅膀
青花瓷
青藏高原
静静的
风云决
飘雪
魔术先生
鲁冰花
龙战骑士
龙拳

========================
这个活在windows下面可不轻松哦,需要一个一个的copy and paste