這篇文章給大家分享的是有關(guān)正則表達(dá)式的知識(shí)點(diǎn)有哪些的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過(guò)來(lái)看看吧。
成都創(chuàng)新互聯(lián)主要從事網(wǎng)站制作、成都網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)武隆,十年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來(lái)電咨詢建站服務(wù):028-86922220
一 前言
對(duì)于正則表達(dá)式,相信很多人都知道,但是很多人的第一感覺(jué)就是難學(xué),因?yàn)榭吹谝谎蹠r(shí),覺(jué)得完全沒(méi)有規(guī)律可尋,而且全是一堆各種各樣的特殊符號(hào),完全不知所云。
其實(shí)只是對(duì)正則不了解而以,了解了你就會(huì)發(fā)現(xiàn),原來(lái)就這樣啊正則所用的相關(guān)字符其實(shí)不多,也不難記,更不難懂,唯一難的就是組合起來(lái)之后,可讀性比較差,而且不容易理解,本文旨在讓大家對(duì)正則有一個(gè)基本的了解,能看得懂簡(jiǎn)單的正則表達(dá)式,寫(xiě)得出簡(jiǎn)單的正則表達(dá)式,用以滿足日常開(kāi)發(fā)中的需求即可。
0\d{2}-\d{8}|0\d{3}-\d{7} 先來(lái)一段正則,如果你對(duì)正則不了解,是不是完全不知道這一串字符是什么意思?這不要緊文章會(huì)詳細(xì)解釋每個(gè)字符的含義的。
1.1 什么是正則表達(dá)式
正則表達(dá)式是一種特殊的字符串模式,用于匹配一組字符串,就好比用模具做產(chǎn)品,而正則就是這個(gè)模具,定義一種規(guī)則去匹配符合規(guī)則的字符。
1.2 常用的正則匹配工具
在線匹配工具:
1 http://www.regexpal.com/
2 http://rubular.com/
正則匹配軟件 McTracer
用過(guò)幾個(gè)之后還是覺(jué)得這個(gè)是最好用的,支持將正則導(dǎo)成對(duì)應(yīng)的語(yǔ)言如java C# js等還幫你轉(zhuǎn)義了,Copy直接用就行了很方便,另外支持把正則表達(dá)式用法解釋,如哪一段是捕獲分組,哪段是貪婪匹配等等,總之用起來(lái) So Happy .
二 正則字符簡(jiǎn)單介紹
2.1 元字符介紹
"^" :^會(huì)匹配行或者字符串的起始位置,有時(shí)還會(huì)匹配整個(gè)文檔的起始位置。
"$" :$會(huì)匹配行或字符串的結(jié)尾
如圖
而且被匹配的字符必須是以This開(kāi)頭有空格也不行,必須以Regex結(jié)尾,也不能有空格與其它字符
"\b" :不會(huì)消耗任何字符只匹配一個(gè)位置,常用于匹配單詞邊界 如 我想從字符串中"This is Regex"匹配單獨(dú)的單詞 "is" 正則就要寫(xiě)成 "\bis\b"
\b 不會(huì)匹配is 兩邊的字符,但它會(huì)識(shí)別is 兩邊是否為單詞的邊界
"\d": 匹配數(shù)字,
例如要匹配一個(gè)固定格式的電話號(hào)碼以0開(kāi)頭前4位后7位,如0737-5686123 正則:^0\d\d\d-\d\d\d\d\d\d\d$ 這里只是為了介紹"\d"字符,實(shí)際上有更好的寫(xiě)法會(huì)在 下面介紹。
"\w":匹配字母,數(shù)字,下劃線.
例如我要匹配"a2345BCD__TTz" 正則:"\w+" 這里的"+"字符為一個(gè)量詞指重復(fù)的次數(shù),稍后會(huì)詳細(xì)介紹。
"\s":匹配空格
例如字符 "a b c" 正則:"\w\s\w\s\w" 一個(gè)字符后跟一個(gè)空格,如有字符間有多個(gè)空格直接把"\s" 寫(xiě)成 "\s+" 讓空格重復(fù)
".":匹配除了換行符以外的任何字符
這個(gè)算是"\w"的加強(qiáng)版了"\w"不能匹配 空格 如果把字符串加上空格用"\w"就受限了,看下用 "."是如何匹配字符"a23 4 5 B C D__TTz" 正則:".+"
"[abc]": 字符組 匹配包含括號(hào)內(nèi)元素的字符
這個(gè)比較簡(jiǎn)單了只匹配括號(hào)內(nèi)存在的字符,還可以寫(xiě)成[a-z]匹配a至z的所以字母就等于可以用來(lái)控制只能輸入英文了,
2.2 幾種反義
寫(xiě)法很簡(jiǎn)單改成大寫(xiě)就行了,意思與原來(lái)的相反,這里就不舉例子了
"\W" 匹配任意不是字母,數(shù)字,下劃線 的字符
"\S" 匹配任意不是空白符的字符
"\D" 匹配任意非數(shù)字的字符
"\B" 匹配不是單詞開(kāi)頭或結(jié)束的位置
"[^abc]" 匹配除了abc以外的任意字符
2.3 量詞
先解釋關(guān)于量詞所涉及到的重要的三個(gè)概念
貪婪(貪心) 如"*"字符 貪婪量詞會(huì)首先匹配整個(gè)字符串,嘗試匹配時(shí),它會(huì)選定盡可能多的內(nèi)容,如果 失敗則回退一個(gè)字符,然后再次嘗試回退的過(guò)程就叫做回溯,它會(huì)每次回退一個(gè)字符,直到找到匹配的內(nèi)容或者沒(méi)有字符可以回退。相比下面兩種貪婪量詞對(duì)資源的消耗是最大的,
懶惰(勉強(qiáng)) 如 "?" 懶惰量詞使用另一種方式匹配,它從目標(biāo)的起始位置開(kāi)始嘗試匹配,每次檢查一個(gè)字符,并尋找它要匹配的內(nèi)容,如此循環(huán)直到字符結(jié)尾處。
占有 如"+" 占有量詞會(huì)覆蓋事個(gè)目標(biāo)字符串,然后嘗試尋找匹配內(nèi)容 ,但它只嘗試一次,不會(huì)回溯,就好比先抓一把石頭,然后從石頭中挑出黃金
"*"(貪婪) 重復(fù)零次或更多
例如"aaaaaaaa" 匹配字符串中所有的a 正則: "a*" 會(huì)出到所有的字符"a"
"+"(懶惰) 重復(fù)一次或更多次
例如"aaaaaaaa" 匹配字符串中所有的a 正則: "a+" 會(huì)取到字符中所有的a字符, "a+"與"a*"不同在于"+"至少是一次而"*" 可以是0次,
稍后會(huì)與"?"字符結(jié)合來(lái)體現(xiàn)這種區(qū)別
"?"(占有) 重復(fù)零次或一次
例如"aaaaaaaa" 匹配字符串中的a 正則 : "a?" 只會(huì)匹配一次,也就是結(jié)果只是單個(gè)字符a
"{n}" 重復(fù)n次
例如從"aaaaaaaa" 匹配字符串的a 并重復(fù)3次 正則: "a{3}" 結(jié)果就是取到3個(gè)a字符 "aaa";
"{n,m}" 重復(fù)n到m次
例如正則 "a{3,4}" 將a重復(fù)匹配3次或者4次 所以供匹配的字符可以是三個(gè)"aaa"也可以是四個(gè)"aaaa" 正則都可以匹配到
"{n,}" 重復(fù)n次或更多次
與{n,m}不同之處就在于匹配的次數(shù)將沒(méi)有上限,但至少要重復(fù)n次 如 正則"a{3,}" a至少要重復(fù)3次
把量詞了解了之后之前匹配電話號(hào)碼的正則現(xiàn)在就可以改得簡(jiǎn)單點(diǎn)了^0\d\d\d-\d\d\d\d\d\d\d$ 可以改為"^0\d+-\d{7}$"。
這樣寫(xiě)還不夠完美如果因?yàn)榍懊娴膮^(qū)號(hào)沒(méi)有做限定,以至于可以輸入很多們,而通常只能是3位或者4位,
現(xiàn)在再改一下 "^0\d{2,3}-\d{7}"如此一來(lái)區(qū)號(hào)部分就可以匹配3位或者4位的了
2.4 懶惰限定符
"*?" 重復(fù)任意次,但盡可能少重復(fù)
如 "acbacb" 正則 "a.*?b" 只會(huì)取到第一個(gè)"acb" 原本可以全部取到但加了限定符后,只會(huì)匹配盡可能少的字符 ,而"acbacb"最少字符的結(jié)果就是"acb"
"+?" 重復(fù)1次或更多次,但盡可能少重復(fù)
與上面一樣,只是至少要重復(fù)1次
"??" 重復(fù)0次或1次,但盡可能少重復(fù)
如 "aaacb" 正則 "a.??b" 只會(huì)取到最后的三個(gè)字符"acb"
"{n,m}?" 重復(fù)n到m次,但盡可能少重復(fù)
如 "aaaaaaaa" 正則 "a{0,m}" 因?yàn)樽钌偈?次所以取到結(jié)果為空
"{n,}?" 重復(fù)n次以上,但盡可能少重復(fù)
如 "aaaaaaa" 正則 "a{1,}" 最少是1次所以取到結(jié)果為 "a"
三 正則進(jìn)階
3.1 捕獲分組
先了解在正則中捕獲分組的概念,其實(shí)就是一個(gè)括號(hào)內(nèi)的內(nèi)容 如 "(\d)\d" 而"(\d)" 這就是一個(gè)捕獲分組,可以對(duì)捕獲分組進(jìn)行 后向引用 (如果后而有相同的內(nèi)容則可以直接引用前面定義的捕獲組,以簡(jiǎn)化表達(dá)式) 如(\d)\d\1 這里的"\1"就是對(duì)"(\d)"的后向引用
那捕獲分組有什么用呢看個(gè)例子就知道了
如 "zery zery" 正則 \b(\w+)\b\s\1\b 所以這里的"\1"所捕獲到的字符也是 與(\w+)一樣的"zery",為了讓組名更有意義,組名是可以自定義名字的
"\b(?<name>\w+)\b\s\k<name>\b" 用"?<name>"就可以自定義組名了而要后向引用組時(shí)要記得寫(xiě)成 "\k<name>";自定義組名后,捕獲組中匹配到的值就會(huì)保存在定義的組名里
下面列出捕獲分組常有的用法
"(exp)" 匹配exp,并捕獲文本到自動(dòng)命名的組里
"(?<name>exp)" 匹配exp,并捕獲文本到名稱為name的組里
"(?:exp)" 匹配exp,不捕獲匹配的文本,也不給此分組分配組號(hào)
以下為零寬斷言
"(?=exp)" 匹配exp前面的位置
如 "How are you doing" 正則"(?<txt>.+(?=ing))" 這里取ing前所有的字符,并定義了一個(gè)捕獲分組名字為 "txt" 而"txt"這個(gè)組里的值為"How are you do";
"(?<=exp)" 匹配exp后面的位置
如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這里取"How"之后所有的字符,并定義了一個(gè)捕獲分組名字為 "txt" 而"txt"這個(gè)組里的值為" are you doing";
"(?!exp)" 匹配后面跟的不是exp的位置
如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數(shù)字后非數(shù)字的結(jié)果
"(?<!exp)" 匹配前面不是exp的位置
如 "abc123 " 正則 "(?<![0-9])123" 匹配"123"前面是非數(shù)字的結(jié)果也可寫(xiě)成"(?!<\d)123"
四 正則實(shí)戰(zhàn)
正則在做驗(yàn)證,與數(shù)據(jù)過(guò)濾時(shí)體現(xiàn)的威力是巨大的,我想用過(guò)的朋友都知道,下面我們把剛剛了解的全部結(jié)合起來(lái)做一次實(shí)戰(zhàn) 做數(shù)據(jù)采集用正則過(guò)濾Html標(biāo)簽并取相應(yīng)的數(shù)據(jù)
我們的戰(zhàn)場(chǎng)就選在博客園吧,假設(shè)現(xiàn)在要采集博客園首頁(yè)的所有文章信息 包括文章標(biāo)題,鏈接接 作者博客地址,文章簡(jiǎn)介,文章發(fā)布時(shí)間,閱讀數(shù)據(jù),評(píng)論數(shù) ,推薦數(shù)。
先看博客園文章的Html格式
<div class="post_item"> <div class="digg"> <div class="diggit" onclick="DiggIt(3439076,120879,1)"> <span class="diggnum" id="digg_count_3439076">4</span> </div> <div class="clear"></div> <div id="digg_tip_3439076" class="digg_tip"></div> </div> <div class="post_item_body"> <h4><a class="titlelnk" href="http://www.cnblogs.com/swq6413/p/3439076.html" target="_blank">分享完整的項(xiàng)目工程目錄結(jié)構(gòu)</a></h4> <p class="post_item_summary"> <a href="http://www.cnblogs.com/swq6413/" target="_blank"><img width="48" height="48" class="pfs" src="/upload/otherpic69/20131116170946.png" alt=""/></a> 在項(xiàng)目開(kāi)發(fā)過(guò)程中,如何有序的保存項(xiàng)目中的各類數(shù)據(jù)文件,建立一個(gè)分類清晰、方便管理的目錄結(jié)構(gòu)是非常重要的。 綜合以前的項(xiàng)目和一些朋友的項(xiàng)目結(jié)構(gòu),我整理了一份我覺(jué)得還不錯(cuò)的項(xiàng)目目錄結(jié)構(gòu)。 在這里分享給大家,歡迎各位提出你寶貴的意見(jiàn)和建議。如果喜歡請(qǐng)“推薦”則個(gè),感激萬(wàn)分?。?nbsp;整個(gè)目錄設(shè)置到4級(jí)子目錄,實(shí)... </p> <div class="post_item_foot"> <a href="http://www.cnblogs.com/swq6413/" class="lightblue">七少爺</a> 發(fā)布于 2013-11-23 15:48 <span class="article_comment"><a href="http://www.cnblogs.com/swq6413/p/3439076.html#commentform" title="2013-11-23 16:40" class="gray"> 評(píng)論(4)</a></span><span class="article_view"><a href="http://www.cnblogs.com/swq6413/p/3439076.html" class="gray">閱讀(206)</a></span></div> </div> <div class="clear"></div> </div>
通過(guò)構(gòu)造一個(gè)Http請(qǐng)求來(lái)取到數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行相應(yīng)處理得到關(guān)鍵信息,在過(guò)濾Html標(biāo)簽取文章時(shí)正則的強(qiáng)大的威力就體現(xiàn)出來(lái)了,
正則的知識(shí)點(diǎn)也都基本用上了比如 "\s \w+ . * ? "還有捕獲分組,零寬斷言等等。喜歡的朋友可以試一試,然后自己看如何通過(guò)正則取相應(yīng)數(shù)據(jù)的,代碼中的正則都是很基本簡(jiǎn)單的,其意思與用法都在上文中詳細(xì)寫(xiě)了。
class Program { static void Main(string[] args) { string content = HttpUtility.HttpGetHtml(); HttpUtility.GetArticles(content); } } internal class HttpUtility { //默認(rèn)獲取第一頁(yè)數(shù)據(jù) public static string HttpGetHtml() { HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://www.cnblogs.com/"); request.Accept = "text/plain, */*; q=0.01"; request.Method = "GET"; request.Headers.Add("Accept-Language", "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3"); request.ContentLength = 0; request.Host = "www.cnblogs.com"; request.UserAgent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.1.3.5000 Chrome/26.0.1410.43 Safari/537.1"; HttpWebResponse response = (HttpWebResponse)request.GetResponse(); Stream responStream = response.GetResponseStream(); StreamReader reader = new StreamReader(responStream, Encoding.UTF8); string content = reader.ReadToEnd(); return content; } public static List<Article> GetArticles(string htmlString) { List<Article> articleList = new List<Article>(); Regex regex = null; Article article = null; regex = new Regex("<div class=\"post_item\">(?<content>.*?)(?=<div class=\"clear\">" + @"</div>\s*</div>)", RegexOptions.Singleline); if (regex.IsMatch(htmlString)) { MatchCollection aritcles = regex.Matches(htmlString); foreach (Match item in aritcles) { article = new Article(); //取推薦 regex = new Regex( "<div class=\"digg\">.*<span.*>(?<digNum>.*)" + @"</span>" + ".*<div class=\"post_item_body\">", RegexOptions.Singleline); article.DiggNum = regex.Match(item.Value).Groups["digNum"].Value; //取文章標(biāo)題 需要去除轉(zhuǎn)義字符 regex = new Regex("<h4>(?<a>.*)</h4>", RegexOptions.Singleline); string a = regex.Match(item.Value).Groups["a"].Value; regex = new Regex("<a\\s.*href=\"(?<href>.*?)\".*>(?<summary>.*)</a>", RegexOptions.Singleline); article.AritcleUrl = regex.Match(a).Groups["href"].Value; article.AritcleTitle = regex.Match(a).Groups["summary"].Value; //取作者圖片 regex = new Regex("<a.*>(?<img><img[^>].*>)</a>", RegexOptions.Singleline); article.AuthorImg = regex.Match(item.Value).Groups["img"].Value; //取作者博客URL及鏈接的target屬性 regex = new Regex("<a\\s*?href=\"(?<href>.*)\"\\s*?target=\"(?<target>.*?)\">.*</a>", RegexOptions.Singleline); article.AuthorUrl = regex.Match(item.Value).Groups["href"].Value; string urlTarget = regex.Match(item.Value).Groups["target"].Value; //取文章簡(jiǎn)介 //1 先取summary Div中所有內(nèi)容 regex = new Regex("<p class=\"post_item_summary\">(?<summary>.*)</p>", RegexOptions.Singleline); string summary = regex.Match(item.Value).Groups["summary"].Value; //2 取簡(jiǎn)介 regex = new Regex("(?<indroduct>(?<=</a>).*)", RegexOptions.Singleline); article.AritcleInto = regex.Match(summary).Groups["indroduct"].Value; //取發(fā)布人與發(fā)布時(shí)間 regex = new Regex( "<div class=\"post_item_foot\">\\s*<a.*?>(?<publishName>.*)</a>(?<publishTime>.*)<span class=\"article_comment\">", RegexOptions.Singleline); article.Author = regex.Match(item.Value).Groups["publishName"].Value; article.PublishTime = regex.Match(item.Value).Groups["publishTime"].Value.Trim(); //取評(píng)論數(shù) regex = new Regex( "<span class=\"article_comment\"><a.*>(?<comment>.*)</a></span><span class=\"article_view\">", RegexOptions.Singleline); article.CommentNum = regex.Match(item.Value).Groups["comment"].Value; //取閱讀數(shù) regex = new Regex("<span\\s*class=\"article_view\"><a.*>(?<readNum>.*)</a>", RegexOptions.Singleline); article.ReadNum = regex.Match(item.Value).Groups["readNum"].Value; articleList.Add(article); } } return articleList; } public static string ClearSpecialTag(string htmlString) { string htmlStr = Regex.Replace(htmlString, "\n", "", RegexOptions.IgnoreCase); htmlStr = Regex.Replace(htmlStr, "\t", "", RegexOptions.IgnoreCase); htmlStr = Regex.Replace(htmlStr, "\r", "", RegexOptions.IgnoreCase); htmlStr = Regex.Replace(htmlStr, "\"", "'", RegexOptions.IgnoreCase); return htmlStr; } } public class Article { /// <summary> /// 文章標(biāo)題 /// </summary> public string AritcleTitle { get; set; } /// <summary> /// 文章鏈接 /// </summary> public string AritcleUrl { get; set; } /// <summary> /// 文章簡(jiǎn)介 /// </summary> public string AritcleInto { get; set; } /// <summary> /// 作者名 /// </summary> public string Author { get; set; } /// <summary> /// 作者地址 /// </summary> public string AuthorUrl { get; set; } /// <summary> /// 作者圖片 /// </summary> public string AuthorImg { get; set; } /// <summary> /// 發(fā)布時(shí)間 /// </summary> public string PublishTime { get; set; } /// <summary> /// 推薦數(shù) /// </summary> public string DiggNum { get; set; } /// <summary> /// 評(píng)論數(shù) /// </summary> public string CommentNum { get; set; } /// <summary> /// 閱讀數(shù) /// </summary> public string ReadNum { get; set; } }
正則部分可能寫(xiě)得不很完美,但至少也匹配出來(lái)了,另外因?yàn)樽约阂彩莿偨佑|正則,也只能寫(xiě)出這種比較簡(jiǎn)單的正則。
感謝各位的閱讀!關(guān)于“正則表達(dá)式的知識(shí)點(diǎn)有哪些”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
文章名稱:正則表達(dá)式的知識(shí)點(diǎn)有哪些
文章位置:http://aaarwkj.com/article24/pdeice.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、網(wǎng)站內(nèi)鏈、外貿(mào)建站、外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、虛擬主機(jī)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
網(wǎng)頁(yè)設(shè)計(jì)公司知識(shí)