java 正则抓取数据

huaye2007

浏览: 37154 次
性别:
来自: 武汉

最近访客更多访客>>

wenwu821

scootzhao

capricornuspp

qq_25498147

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (34)

社区版块

存档分类

刚开始不太熟悉正则，在网上搜了下资料，开始了正则的测试之后，终于可以抓取内容了

package com.test;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Arrays;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 抓取短信居的搞笑短信
 * http://www.dxju.com/dxw/gxdx/
 * */
public class Testdxju {

	/**
	 * 提取超链接里面的文本
	 * */
	public static String getRequestData(String urlStr) throws Exception{
		URL url = new URL(urlStr);
		HttpURLConnection urlConn =( HttpURLConnection) url.openConnection();
		int code = urlConn.getResponseCode();
		StringBuffer sb = new StringBuffer("");
		if(code == 200){
			BufferedReader br = new BufferedReader(new InputStreamReader(urlConn.getInputStream(),"gb2312"));
			String str = null;
			while((str = br.readLine()) != null){
				//查看网页源代码之后，里面有多个表格，写此正则之后，就只有一个table了
				String regex2 = "<table.*>.*</table>";
				Pattern pt = Pattern.compile(regex2);
				Matcher mt = pt.matcher(str);
				while(mt.find()){
					//下面就是针对上面的table提取多个url
					String s = mt.group();
					System.out.println(s);
					String regex3 = ">(\\W*)$";//获取文本
					Pattern pt3 = Pattern.compile(regex3);
					String[] strArray = s.split("<[/]a>");//先将字符串以</a>分为字符串数组
					for(String sss:strArray){
						Matcher mt3 = pt3.matcher(sss);
						if(mt3.find()){
							System.out.println(mt3.group(1));
						}
					}
				}
				sb.append(str+"\r\n");
			}
		}
		return sb.toString();
	}
	public static void main(String[] args) {
		try {
			getRequestData("http://www.dxju.com/dxw/gxdx/");
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

说下自己刚学到的几个正则里面比较重要的几点

字符串例子 String str="<table><tr><td>aaaaa</td></tr><tr><td>bbbbb</td></tr></table>";

1：重复的标记需要用split来获取成数组再匹配正则：比如table里面会有很多的td,我们需要td里的文本，则先将这个字符串以</td>这个标记来切割字符串，变成一个字符串数组

那么上面的str 经过split("<[/]td>")之后就变成<table><tr><td>aaaaa 和</tr><tr><td>bbbbb </tr></table> 三个字符串

在用正则表达式截取td后面的文本内容就是了 <td>(\\W*)$ 那么如何去掉td呢？注意里面正则表达式有个()小括号，这就是用来分组的,因为这里面只有一个()小括号，所以java代码里面

mt3  .group(1)获取的就是td的文本,多个的话，就是mt3  .group(1)，mt3  .group(2)
mt3  .group(3)
。。。。。。。这样去取文本。

分享到：

mysql 按照天周月年统计数据 | java nio mina 学习笔记2 介绍Mina的TCP ...

2012-06-08 18:34
浏览 1514
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java 正则抓取数据

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java 正则 抓取数据

评论

发表评论

相关推荐

最近访客更多访客>>

java 正则抓取数据