日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > java >内容正文

java

【Java正则表达式】正则基本语法、使用方式(分组、替换、分割)、简单爬虫基础

發布時間:2024/2/28 java 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【Java正则表达式】正则基本语法、使用方式(分组、替换、分割)、简单爬虫基础 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

正則表達式基本語法

筆記掃描版



在Java中使用正則表達式

示例1:一個簡單的正則表達式
package cn.hanquan.reg;import java.util.regex.Matcher; import java.util.regex.Pattern;/** 測試正則表達式的基本用法*/ public class TestReg {public static void main(String[] args) {// 正則表達式對象Pattern p = Pattern.compile("\\w+");// 待匹配字符串Matcher m = p.matcher("123ABCDEFGHIGK&&&&LMN123456abcd");// 匹配 // boolean b1 = m.matches();// 整個序列是否符合正則對象 // System.out.println(b1);while (m.find()) {// 掃描字符串 查找與該模式匹配的下一個子序列 并移動當前指針 下一次從指針位置繼續System.out.println(m.group());// group() group(0)匹配整個表達式的子字符串}} }
輸出1
123ABCDEFGHIGK LMN123456abcd
示例2:分組的使用

使用場景:找到一個合適的字符串,但只想輸出其中的一部分。

如:通過匹配,得到郵箱賬號123456@example.com,但只想要其中的123456,就可以使用分組的方式。

下面這個例子說明了m.group(1)括號中的數,也就是組號,的含義。

package cn.hanquan.reg;import java.util.regex.Matcher; import java.util.regex.Pattern;/** 測試正則表達式的分組*/ public class TestReg {public static void main(String[] args) {// 正則表達式對象Pattern p = Pattern.compile("([a-z]+)([0-9]+)");// 待匹配字符串Matcher m = p.matcher("aaaaaa123 eeeeee77777 wwwww888");// 匹配while (m.find()) {System.out.println("" + m.group());// group() group(0)匹配整個表達式的子字符串System.out.println("--------------" + m.group(1));System.out.println("----------------------------" + m.group(2));}} }

如何在RegexBuddy軟件中使用正則表達式的分組功能

輸出2
aaaaaa123 --------------aaaaaa ----------------------------123 eeeeee77777 --------------eeeeee ----------------------------77777 wwwww888 --------------wwwww ----------------------------888
示例3:替換匹配好的字符串
package cn.hanquan.reg;import java.util.regex.Matcher; import java.util.regex.Pattern;/** 測試正則表達式的替換基本用法*/ public class TestReg {public static void main(String[] args) {// 正則表達式對象Pattern p = Pattern.compile("([a-z]+)([0-9]+)");// 待匹配字符串Matcher m = p.matcher("aaaaaa123 eeeeee77777 wwwww888");// 替換System.out.println(m.replaceAll("#"));} }
輸出3
# # #
示例4:使用正則表達式分割
package cn.hanquan.reg;import java.util.Arrays; /** 測試正則表達式的分割*/ public class TestReg {public static void main(String[] args) {String str = "ABC123DEFG456HIJK789LMN";// String[] arrs = str.split("\\d+");// 效果相同String[] arrs = str.split("[0-9]+");System.out.println(Arrays.toString(arrs));} }
輸出4
[ABC, DEFG, HIJK, LMN]
示例5:正則表達式爬取網頁中的鏈接

正則匹配HTML代碼中的網頁鏈接:(?<=href=")[a-z]+://[^\s]*(?=")

package cn.hanquan.reg;import java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.nio.charset.Charset; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern;/** 測試正則表達式的分割*/ public class URLSpider {// 獲取url對應的源代碼public static String getURLContent(String urlStr, String charSet) {StringBuilder sb = new StringBuilder();try {URL url = new URL(urlStr);BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName(charSet)));String temp = "";while ((temp = reader.readLine()) != null) {sb.append(temp + "\r\n");}} catch (MalformedURLException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}return sb.toString();}// 正則匹配public static List<String> getMatherSubstrs(String str, String regex) {List<String> list = new ArrayList<String>();Pattern p = Pattern.compile(regex);Matcher m = p.matcher(str);while (m.find()) {list.add(m.group());}return list;}public static void main(String[] args) throws FileNotFoundException {// 獲取源碼String str = getURLContent("http://www.163.com", "gbk");// 正則匹配List<String> list = getMatherSubstrs(str, "(?<=href=\")[a-z]+://[^\\s]*(?=\")");// 打印結果for (String s : list) {System.out.println(s);}} }
部分輸出

總結

以上是生活随笔為你收集整理的【Java正则表达式】正则基本语法、使用方式(分组、替换、分割)、简单爬虫基础的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。