0
点赞
收藏
分享

微信扫一扫

webbrowser爬虫,自动填充


webbrowser2.h的作用

 

 

1.innerhtml,outerhtml,innertext区别

 

2. 修改webbrowser默认的浏览器内核版本

 

webbrowser打开   http://ie.icoa.cn/  查看浏览器版本

 

webbrowser爬虫,自动填充_#include

 

 

3.调用js函数

IDispatch *m_pDispDoc = m_webBrowser.get_Document();
 VARIANT varState;
 CComQIPtr<IHTMLDocument2>spDocument2 = m_pDispDoc;
 CComDispatchDriver spScript;
 spDocument2->get_Script(&spScript);
 CComVariant var(L"fish");  
 spScript.Invoke1(L"youtest", &var);//youtest是js函数,fish是函数参数

 

在我们编写的程序中,如果想要实现对浏览器打开的网页进行监视、模拟操纵、动态提取用户输入、动态修改......等功能,那么请你抽出宝贵的时间,继续往下阅读。本文介绍的知识和示例程序都是围绕如何遍历 HTML 中的表单(form)并枚举出表单域的属性为目标的,对于网页中的其它元素,比如图象、连接、脚本等等,应用同样的方法都可以轻松实现。

二、网页的文档层次结构

IE 浏览器,采用 DOM(文档对象模型)来管理网页的数据。它通过一个容器(IWebBrowser2/IHTMLWindow2)来装载网页文档(IHTMLDocument2),而一个文档,又可以由 0 或多个贞(frame)组成,管理这些贞的接口叫“框架集合(IHTMLFramesCollection2)”,而每个贞的容器又是IHTMLWindow2,和IWebBrowser2一样,它也装载着各自的文档(IHTMLDocument2)。因此,我们的第一个任务,就是想方设法能够得到IHTMLDocument2的接口。因为文档可能包含贞,而贞又包含着子文档,子文档可能再包含贞......,如此要得到所有的文档,这里有一个递归遍历的处理过程。

得到文档(IHTMLDocument2)后,下一步任务就是要设法取得表单了(IHTMLFormElement)。因为在一个文档中可以包含 0 或多个表单(form),而管理这些表单的又是一个表单集合(IHTMLElementCollection),所以必须先得到集合,然后再枚举出所有的表单条目了。

得到表单(IHTMLFormElement)后,接下来的事情就简单了,逐个提取表单中的元素(也叫表单域 IHTMLInputElement)就可以读写这些域的属性了。

说了半天,我估计初次接触的朋友一定没有听懂:( 呵呵,还是用图的方式表示一下吧,这样比较清晰一些。

 

webbrowser爬虫,自动填充_#include_02

三、程序实现

<1> 取得 IHTMLDocument2 的接口指针。根据IE浏览器的运行方式,有多种不同的方式可以获取文档指针。

 <1.1> 如果你在程序中使用MFC的 CHtmlView 视来浏览网页。

取得文档的方法最简单,调用 CHtmlView::GetHtmlDocument() 函数。

<1.2> 如果你的程序中使用了“Web 浏览器” 的ActiveX 控件。

取得文档的方法也比较简单,调用 CWebBrowser2::GetDocument() 函数。

<1.3> 如果你的程序是用 ATL 写的 ActiveX 控件。

那么需要调用 IOleClientSite::GetContainer 得到 IOleContainer 接口,然后就可以通过 QueryInterface() 查询得到 IHTMLDocument2 的接口。主要代码如下:



   CComPtr < IOleContainer > spContainer;
  
 
  

   m_spClientSite->GetContainer( &spContainer );
  
 
  


   CComQIPtr < IHTMLDocument2 > spDoc = spContainer;
  
 
  


   if 
   ( spDoc )
  
 
  


   {
  
 

   // 已经得到了 IHTMLDocument2 的接口指针
  

   }

<1.4> 如果你的程序是用 MFC 写的 ActiveX 控件。

那么需要调用 COleControl::GetClientSite() 得到 IOleContainer 接口,然后的操作和<1.3>是一致的了。

<1.5> IE 浏览器作为独立的进程正在运行。

每个运行的浏览器(IE 和 资源浏览器)都会在 ShellWindows 中进行登记,因此我们要通过 IShellWindows 取得实例(示例程序中使用的就是这个方法)。主要代码如下:


01.
   #include < atlbase.h >
  
 
  

   02.
   #include < mshtml.h >
  
 
  

   03. 
  
 
  

   04.
   void 
   FindFromShell()
  
 
  

   05.
   {
  
 
  

   06.
   CComPtr< IShellWindows > spShellWin;
  
 
  

   07.
   HRESULT 
   hr = spShellWin.CoCreateInstance( CLSID_ShellWindows );
  
 
  

   08.
   if 
   ( FAILED( hr ) )    
   return
   ;
  
 
  

   09. 
  
 
  

   10.
   long 
   nCount=0;
  
 
  

   11.
   spShellWin->get_Count(&nCount);   
   // 取得浏览器实例个数
  
 
  

   12. 
  
 
  

   13.
   for
   (
   long 
   i=0; i spDisp;
  
 
  

   14.
   hr=spShellWin->Item(CComVariant( i ), &spDisp );
  
 
  

   15.
   if 
   ( FAILED( hr ) )   
   continue
   ;
  
 
  

   16. 
  
 
  

   17.
   CComQIPtr< IWebBrowser2 > spBrowser = spDisp;
  
 
  

   18.
   if 
   ( !spBrowser )     
   continue
   ;
  
 
  

   19. 
  
 
  

   20.
   spDisp.Release();
  
 
  

   21.
   hr = spBrowser->get_Document( &spDisp );
  
 
  

   22.
   if 
   ( FAILED ( hr ) )  
   continue
   ;
  
 
  

   23. 
  
 
  

   24.
   CComQIPtr< IHTMLDocument2 > spDoc = spDisp;
  
 
  

   25.
   if 
   ( !spDoc )         
   continue
   ;
  
 
  

   26. 
  
 
  

   27.
   // 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
  
 
  

   28.
   }
  
 
  

   29.
   }


<1.6> IE 浏览器控件被一个进程包装在一个子窗口中。那么你首先要得到那个进程的顶层窗口句柄(使用 FindWindow() 函数,或其它任何可行的方法),然后枚举所有子窗口,通过判断窗口类名是否是“Internet Explorer_Server”,从而得到浏览器的窗口句柄,再向窗口发消息取得文档的接口指针。主要代码如下:

01.
   #include < atlbase.h >
  
 
  

   02.
   #include < mshtml.h >
  
 
  

   03.
   #include < oleacc.h >
  
 
  

   04.
   #pragma comment ( lib, "oleacc" )
  
 
  

   05. 
  
 
  

   06.
   BOOL 
   CALLBACK EnumChildProc(
   HWND 
   hwnd,
   LPARAM 
   lParam)
  
 
  

   07.
   {
  
 
  

   08.
   TCHAR 
   szClassName[100];
  
 
  

   09. 
  
 
  

   10.
   ::GetClassName( hwnd,  &szClassName,  
   sizeof
   (szClassName) );
  
 
  

   11.
   if 
   ( _tcscmp( szClassName,  _T(
   "Internet Explorer_Server"
   ) ) == 0 )
  
 
  

   12.
   {
  
 
  

   13.
   *(
   HWND
   *)lParam = hwnd;
  
 
  

   14.
   return 
   FALSE;       
   // 找到第一个 IE 控件的子窗口就停止
  
 
  

   15.
   }
  
 
  

   16.
   else    
   return 
   TRUE;        
   // 继续枚举子窗口
  
 
  

   17.
   };
  
 
  

   18. 
  
 
  

   19.
   void 
   FindFromHwnd(
   HWND 
   hWnd)
  
 
  

   20.
   {
  
 
  

   21.
   HWND 
   hWndChild=NULL;
  
 
  

   22.
   ::EnumChildWindows( hWnd, EnumChildProc, (
   LPARAM
   )&hWndChild );
  
 
  

   23.
   if
   (NULL == hWndChild)   
   return
   ;
  
 
  

   24. 
  
 
  

   25.
   UINT 
   nMsg = ::RegisterWindowMessage( _T(
   "WM_HTML_GETOBJECT"
   ) );
  
 
  

   26.
   LRESULT 
   lRes;
  
 
  

   27.
   ::SendMessageTimeout( hWndChild, nMsg, 0L, 0L, SMTO_ABORTIFHUNG, 1000, (
   DWORD
   *) &lRes );
  
 
  

   28. 
  
 
  

   29.
   CComPtr < IHTMLDocument2 > spDoc;
  
 
  

   30.
   HRESULT 
   hr = ::ObjectFromLresult ( lRes, IID_IHTMLDocument2, 0 , (
   LPVOID 
   *) &spDoc );
  
 
  

   31.
   if 
   ( FAILED ( hr ) )    
   return
   ;
  
 
  

   32. 
  
 
  

   33.
   // 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
  
 
  

   34.
   }


<2> 得到了 IHTMLDocument2 接口指针后,如果网页是单贞的,那么转第<4>步骤。如果是多贞(有子框架)则还需要遍历所有的子框架。这些子框架(IHTMLWindow2),被保存在集合中(IHTMLFramesCollection2),取得集合指针的方法比较简单,取属性 IHTMLDocument2::get_frames()。

<3> 首先取得子框架的总数目 IHTMLFramesCollection::get_length(),接着就可以循环调用 IHTMLFramesCollection::item()函数一个一个地取得子框架 IHTMLWindow2 指针,然后转第<1>步。

<4> 一个文档中可能拥有多个表单,因此还是同样的道理,先要取得表单的集合(IHTMLElementCollection,其实这个不光是表单的集合,其他元素的集合,比如图片集合也是用它)。这个操作也很简单,取得属性 IHTMLDocument2::get_forms()。

<5> 属性 IHTMLElementCollection::get_length() 得到表单总数目,就可以循环取得每一个表单指针了 IHTMLElementCollection::item()。

<6> 在第<5>步中的item()函数,得到的是一个IDispatch的指针,你通过QueryInterface()查询,就可以得到 某类型输入的指针,代码如下:


01.
   // 假设 spDisp 是由IHTMLElementCollection::item() 得到的 IDispatch 指针
  
 
  

   02.
   CComQIPtr < IHTMLInputTextElement >     spInputText(spDisp);
  
 
  

   03.
   CComQIPtr < IHTMLInputButtonElement >   spInputButton(spDisp);
  
 
  

   04.
   CComQIPtr < IHTMLInputHiddenElement >   spInputHidden(spDisp);
  
 
  

   05.
   ......
  
 
  

   06.
   if 
   ( spInputText )
  
 
  

   07.
   {
  
 
  

   08.
   //如果是文本输入表单域
  
 
  

   09.
   }
  
 
  

   10.
   else 
   if 
   ( spInputButton )
  
 
  

   11.
   {
  
 
  

   12.
   //如果是按纽输入表单域
  
 
  

   13.
   }
  
 
  

   14.
   else 
   if 
   ( spInputHiddent )
  
 
  

   15.
   {
  
 
  

   16.
   //如果是隐藏输入表单域
  
 
  

   17.
   }
  
 
  

   18.
   else 
   if 
   ........    
   //其它输入类型


上面的方法,由于使用具体类型的接口指针,因此程序的效率比较高。但是通过 QueryInterface 接口查询,然后再进行条件判断显然是比较烦琐的,所以这个方法适合于特定的已知网页设计内容的程序。在示例程序中,我则是直接使用 IDispatch 接口进行操作的,这个方式执行起来稍微慢一些,但程序比较简单。主要代码和说明如下:


01.
   #include < atlbase.h >
  
 
  

   02.
   CComModule  _Module;    
   // 由于需要使用 CComDispatchDriver 的 IDispatch 包装类ATL智能指针,所以这个是必须的
  
 
  

   03.
   #include < atlcom.h >
  
 
  

   04.
   ......
  
 
  

   05.
   long 
   nElemCount=0;      
   //表单域的总数目
  
 
  

   06.
   spFormElement->get_length( &nElemCount );
  
 
  

   07. 
  
 
  

   08.
   for
   (
   long 
   j=0; j< nElemCount; j++)
  
 
  

   09.
   {
  
 
  

   10.
   CComDispatchDriver spInputElement;  
   // IDispatch 的智能指针
  
 
  

   11.
   spFormElement->item( CComVariant( j ), CComVariant(), &spInputElement );
  
 
  

   12. 
  
 
  

   13.
   CComVariant vName,vVal,vType;   
   // 域名称,域值,域类型
  
 
  

   14.
   spInputElement.GetPropertyByName( L
   "name"
   , &vName );
  
 
  

   15.
   spInputElement.GetPropertyByName( L
   "value"
   ,&vVal  );
  
 
  

   16.
   spInputElement.GetPropertyByName( L
   "type"
   , &vType );
  
 
  

   17.
   // 使用 IDispatch 的智能指针的好处就是:象上面这样读取、设置属性很简单
  
 
  

   18.
   // 另外调用 Invoke 函数也异常方便,Invoke0(),Invoke1(),Invoke2()....
  
 
  

   19.
   ......
  
 
  

   20.
   }

 

举报

相关推荐

0 条评论