【Java正则表达式】正则基本语法、使用方式(分组、替换、分割)、简单爬虫基础
生活随笔
收集整理的這篇文章主要介紹了
【Java正则表达式】正则基本语法、使用方式(分组、替换、分割)、简单爬虫基础
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
正則表達式基本語法
筆記掃描版
在Java中使用正則表達式
示例1:一個簡單的正則表達式
package cn.hanquan.reg;import java.util.regex.Matcher; import java.util.regex.Pattern;/** 測試正則表達式的基本用法*/ public class TestReg {public static void main(String[] args) {// 正則表達式對象Pattern p = Pattern.compile("\\w+");// 待匹配字符串Matcher m = p.matcher("123ABCDEFGHIGK&&&&LMN123456abcd");// 匹配 // boolean b1 = m.matches();// 整個序列是否符合正則對象 // System.out.println(b1);while (m.find()) {// 掃描字符串 查找與該模式匹配的下一個子序列 并移動當前指針 下一次從指針位置繼續System.out.println(m.group());// group() group(0)匹配整個表達式的子字符串}} }輸出1
123ABCDEFGHIGK LMN123456abcd示例2:分組的使用
使用場景:找到一個合適的字符串,但只想輸出其中的一部分。
如:通過匹配,得到郵箱賬號123456@example.com,但只想要其中的123456,就可以使用分組的方式。
下面這個例子說明了m.group(1)括號中的數,也就是組號,的含義。
package cn.hanquan.reg;import java.util.regex.Matcher; import java.util.regex.Pattern;/** 測試正則表達式的分組*/ public class TestReg {public static void main(String[] args) {// 正則表達式對象Pattern p = Pattern.compile("([a-z]+)([0-9]+)");// 待匹配字符串Matcher m = p.matcher("aaaaaa123 eeeeee77777 wwwww888");// 匹配while (m.find()) {System.out.println("" + m.group());// group() group(0)匹配整個表達式的子字符串System.out.println("--------------" + m.group(1));System.out.println("----------------------------" + m.group(2));}} }如何在RegexBuddy軟件中使用正則表達式的分組功能
輸出2
aaaaaa123 --------------aaaaaa ----------------------------123 eeeeee77777 --------------eeeeee ----------------------------77777 wwwww888 --------------wwwww ----------------------------888示例3:替換匹配好的字符串
package cn.hanquan.reg;import java.util.regex.Matcher; import java.util.regex.Pattern;/** 測試正則表達式的替換基本用法*/ public class TestReg {public static void main(String[] args) {// 正則表達式對象Pattern p = Pattern.compile("([a-z]+)([0-9]+)");// 待匹配字符串Matcher m = p.matcher("aaaaaa123 eeeeee77777 wwwww888");// 替換System.out.println(m.replaceAll("#"));} }輸出3
# # #示例4:使用正則表達式分割
package cn.hanquan.reg;import java.util.Arrays; /** 測試正則表達式的分割*/ public class TestReg {public static void main(String[] args) {String str = "ABC123DEFG456HIJK789LMN";// String[] arrs = str.split("\\d+");// 效果相同String[] arrs = str.split("[0-9]+");System.out.println(Arrays.toString(arrs));} }輸出4
[ABC, DEFG, HIJK, LMN]示例5:正則表達式爬取網頁中的鏈接
正則匹配HTML代碼中的網頁鏈接:(?<=href=")[a-z]+://[^\s]*(?=")
package cn.hanquan.reg;import java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.nio.charset.Charset; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern;/** 測試正則表達式的分割*/ public class URLSpider {// 獲取url對應的源代碼public static String getURLContent(String urlStr, String charSet) {StringBuilder sb = new StringBuilder();try {URL url = new URL(urlStr);BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName(charSet)));String temp = "";while ((temp = reader.readLine()) != null) {sb.append(temp + "\r\n");}} catch (MalformedURLException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}return sb.toString();}// 正則匹配public static List<String> getMatherSubstrs(String str, String regex) {List<String> list = new ArrayList<String>();Pattern p = Pattern.compile(regex);Matcher m = p.matcher(str);while (m.find()) {list.add(m.group());}return list;}public static void main(String[] args) throws FileNotFoundException {// 獲取源碼String str = getURLContent("http://www.163.com", "gbk");// 正則匹配List<String> list = getMatherSubstrs(str, "(?<=href=\")[a-z]+://[^\\s]*(?=\")");// 打印結果for (String s : list) {System.out.println(s);}} }部分輸出
總結
以上是生活随笔為你收集整理的【Java正则表达式】正则基本语法、使用方式(分组、替换、分割)、简单爬虫基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【PAT甲级 一个字符数组是否被另一个包
- 下一篇: 【Java数据库】SQL时间类型Date