1. <output id="hzk7v"><pre id="hzk7v"><address id="hzk7v"></address></pre></output>
      <output id="hzk7v"></output>
    2. <nav id="hzk7v"><i id="hzk7v"><em id="hzk7v"></em></i></nav>
    3. <listing id="hzk7v"><delect id="hzk7v"><em id="hzk7v"></em></delect></listing>

      使用正则表达式实现网页爬虫的思路详解

       更新时间£º2018年12月06日 12:35:43   作者£ºwyhluckydog   我要评论

      网页爬虫£º就是一个程序用于在互联网中获取指定规则的数据¡£这篇文章主要介绍了使用正则表达式实现网页爬虫的思路详解,需要的朋友可以参考下

      网页爬虫£º就是一个程序用于在互联网中获取指定规则的数据¡£

      思路£º

      1.为模拟网页爬虫£¬我们可以现在我们的tomcat服务器端部署一个1.html网页¡££¨部署的步骤£º在tomcat目录的webapps目录的ROOTS目录下新建一个1.html¡£使用notepad++进行编辑£¬编辑内容为£º

      在这里插入?#35745;?#25551;述£©

      2.使用URL与网页建立联系
      3.获取输入流£¬用于读取网页中的内容
      4.建立正则规则£¬因为这里我们是爬去网页中的邮箱信息£¬所以建立匹配 邮箱的正则表达式£ºString regex="\[email protected]\w+(\.\w+)+";
      5.将提取到的数据放到集?#29616;小?/p>

      代码£º

      import java.io.BufferedReader;
      import java.io.InputStream;
      import java.io.InputStreamReader;
      import java.net.URL;
      import java.util.ArrayList;
      import java.util.List;
      import java.util.regex.Matcher;
      import java.util.regex.Pattern;
      /*
       * 网页爬虫:就是一个程序用于在互联网中获取指定规则的数据
       * 
       * 
       */
      public class RegexDemo {
       public static void main(String[] args) throws Exception {
       
       List<String> list=getMailByWeb();
       for(String str:list){
       System.out.println(str);
       }
       
       }
       private static List<String> getMailByWeb() throws Exception {
       
       //1.与网页建立联系¡£使用URL
       String path="http://localhost:8080//1.html";//后面写双?#22791;?#26159;用于转义
       URL url=new URL(path);
       //2.获取输入流
       InputStream is=url.openStream();
       //加缓冲
       BufferedReader br=new BufferedReader(new InputStreamReader(is));
       //3.提取符合邮箱的数据
       String regex="\\[email protected]\\w+(\\.\\w+)+";
       //进行匹配
       //将正则规则封装成对象
       Pattern p=Pattern.compile(regex);
       //将提取到的数据放到一个集?#29616;?
       List<String> list=new ArrayList<String>();
       
       String line=null;
       while((line=br.readLine())!=null){
       //匹配器
       Matcher m=p.matcher(line);
       while(m.find()){
       //3.将符合规则的数据存储到集?#29616;?
       list.add(m.group());
       }
       }
       
       return list;
       }
      }

      注意:在执行前需要先开启tomcat服务器

      运行结果£º

      在这里插入?#35745;?#25551;述

      总结

      以上所述是小编给大家介绍的使用正则表达式实现网页爬虫的思路详解£¬希望?#28304;?#23478;有所帮助£¬如果大家有任?#25105;ÉÎ是?#32473;我留言£¬小编会及时回复大家的¡£在此也非常?#34892;?#22823;家对脚本之家网站的支持£¡

      相关文章

      最新评论

      3dÊÔ»úºÅÖвÊÍø

        1. <output id="hzk7v"><pre id="hzk7v"><address id="hzk7v"></address></pre></output>
          <output id="hzk7v"></output>
        2. <nav id="hzk7v"><i id="hzk7v"><em id="hzk7v"></em></i></nav>
        3. <listing id="hzk7v"><delect id="hzk7v"><em id="hzk7v"></em></delect></listing>

            1. <output id="hzk7v"><pre id="hzk7v"><address id="hzk7v"></address></pre></output>
              <output id="hzk7v"></output>
            2. <nav id="hzk7v"><i id="hzk7v"><em id="hzk7v"></em></i></nav>
            3. <listing id="hzk7v"><delect id="hzk7v"><em id="hzk7v"></em></delect></listing>