使用Electron構(gòu)建跨平臺的抓取桌面程序（electron抓包）

投稿用戶 ? 2024年5月1日下午3:11 ? 科研百科 ? 閱讀 103

使用Electron構(gòu)建跨平臺的抓取桌面程序

談起桌面應(yīng)用開發(fā)技術(shù), 我們會想到.Net下的WinForm, Java下的JavaFX以及Linux下的QT. 這些技術(shù)對于Web應(yīng)用程序員來說一般比較陌生, 因為大多Web應(yīng)用程序員的開發(fā)技能是前端的JavaScript和后端的Java,PHP等語言.

如果Web應(yīng)用程序員想開發(fā)桌面應(yīng)用怎么辦? 主流的桌面應(yīng)用開發(fā)技術(shù)的學(xué)習(xí)曲線不低, 上手比較困難. 而Electron的出現(xiàn)給Web應(yīng)用程序員帶來了福音.

Electron簡介:

Electron 是 Github 發(fā)布跨平臺桌面應(yīng)用開發(fā)工具，支持 Web 技術(shù)開發(fā)桌面應(yīng)用開發(fā)，其本身是基于 C 開發(fā)的，GUI 核心來自于 Chrome，而 JavaScript 引擎使用 v8…

簡單的說, Electron平臺就是用Javascript把UI和后臺邏輯打通, 后臺主進(jìn)程使用NodeJs豐富的API完成復(fù)雜耗時的邏輯, 而UI進(jìn)程則借助Chrome渲染html完成交互.

我之前使用SpringBoot開發(fā)了一套市長信箱抓取Web應(yīng)用. 由于沒服務(wù)器部署, 所以我現(xiàn)在想把同樣的功能移植到桌面端, 作成一個桌面應(yīng)用. 對于開發(fā)平臺我有以下需求:

能利用我現(xiàn)有的技術(shù)棧: Web前端JavaScript, 服務(wù)端的Java或者NodeJs.
能跨平臺, 既能編譯成Mac下的DMG安裝程序,又能編譯成windows平臺下的exe文件, 滿足不足場景的使用.

而Electron作為開發(fā)平臺正好能滿足我的這些需求, 通過一天的摸索, 我完成了這個桌面應(yīng)用, 并最終打包出Mac平臺下的DMG安裝文件. 工程代碼: https://github.com/ybak/watcher

使用Electron構(gòu)建跨平臺的抓取桌面程序（electron抓包）

下面將介紹我是如何使用Electron平臺開發(fā)這個桌面應(yīng)用.

回顧: 市長信箱郵件抓取Web應(yīng)用

動手之前, 我先分析一下之前所做的抓取Web應(yīng)用. 它的架構(gòu)如下:

使用Electron構(gòu)建跨平臺的抓取桌面程序（electron抓包）

應(yīng)用分可為四部分:

抓取程序:使用Java的OkHttp作為Http請求類庫獲取網(wǎng)頁內(nèi)容,并交給Jsoup進(jìn)行解析, 得到郵件內(nèi)容.
數(shù)據(jù)庫:用Mysql實現(xiàn), 用來保存抓取后的網(wǎng)頁內(nèi)容, 并提供檢索查詢服務(wù).
靜態(tài)交互頁面:一個簡單的HTML頁面, 使用jQuery發(fā)起ajax與后端交互, 并使用handlebar作為展示模板.
通信: 使用SpringBoot提供了交互所需的API(搜索服務(wù),全量抓取和更新郵件).

設(shè)計: 使用Electron構(gòu)建抓取桌面應(yīng)用

將要實現(xiàn)的桌面應(yīng)用, 同樣也需要需要完成這四部分的工作. 我做了以下設(shè)計:

使用Electron構(gòu)建跨平臺的抓取桌面程序（electron抓包）

Electron主進(jìn)程借助NodeJs豐富的生態(tài)系統(tǒng)完成網(wǎng)頁抓取與數(shù)據(jù)存儲與搜索的功能, UI進(jìn)程則完成頁面的渲染工作.

抓取程序: 使用NodeJs的request, cheerio, async完成.
數(shù)據(jù)庫: 使用NodeJs下的nedb存儲, 作為應(yīng)用內(nèi)嵌數(shù)據(jù)庫可以方便的集成進(jìn)桌面應(yīng)用.
UI: 使用HTML與前端JavaScript類庫完成, 重用之前Web應(yīng)用中的靜態(tài)頁面.
通信: 使用Electron提供的IPC,完成主進(jìn)程與UI進(jìn)程的通信.

實現(xiàn): 使用Electron構(gòu)建抓取桌面應(yīng)用

1. 抓取程序的實現(xiàn):

市長信箱郵件多達(dá)上萬封, JavaScript異步的特點, 會讓人不小心就寫出上千并發(fā)請求的程序, 短時間內(nèi)大量試圖和抓取目標(biāo)服務(wù)器建立連接的行為會被服務(wù)器拒絕服務(wù), 從而造成抓取流程失敗. 所以抓取程序要做到:

tcp連接復(fù)用
并發(fā)頻率可控

我使用以下三個NodeJs組件:

Request http客戶端, 利用了底層NodeJs的Http KeepAlive特性實現(xiàn)了tcp連接的復(fù)用.
async 控制請求的并發(fā)以及異步編程的順序性.
cheerio html的解析器.

代碼: crawlService.js

//使用request獲取頁面內(nèi)容request(\’http://12345.chengdu.gov.cn/moreMail\’, (err, response, body) => { if (err) throw err; //使用cheerio解析html var $ = cheerio.load(body), totalSize = $(\’div.pages script\’).html().match(/iRecCount = d /g)[0].match(/d /g)[0]; …… //使用async控制請求并發(fā), 順序的抓取郵件分頁內(nèi)容 async.eachSeries(pagesCollection, function (page, crawlNextPage) { pageCrawl(page, totalPageSize, updater, crawlNextPage); })});

2. 數(shù)據(jù)庫的實現(xiàn):

抓取后的內(nèi)容存儲方式有較多選擇:

文本文件
搜索引擎
數(shù)據(jù)庫

文本文件雖然保存簡單, 但不利于查詢和搜索, 顧不采用.

搜索引擎一般需要獨立部署, 不利于桌面應(yīng)用的安裝, 這里暫不采用.

獨立部署的數(shù)據(jù)庫有和搜索引擎同樣的問題, 所以像連接外部Mysql的方式這里也不采用.

綜合考慮, 我需要一種內(nèi)嵌數(shù)據(jù)庫. 幸好NodeJs的組件非常豐富, nedb是一個不錯的方案, 它可以將數(shù)據(jù)同時保存在內(nèi)存和磁盤中, 同時是文檔型內(nèi)嵌數(shù)據(jù)庫, 使用mongodb的語法進(jìn)行數(shù)據(jù)操作.

代碼: dbService.js

//建立數(shù)據(jù)庫連接const db = new Datastore({filename: getUserHome() \’/.electronapp/watcher/12345mails.db\’, autoload: true});……//使用nedb插入數(shù)據(jù)db.update({_id: mail._id}, mail, {upsert: true}, function (err, newDoc) {});……//使用nedb進(jìn)行郵件查詢let match = {$regex: eval(\’/\’ keyword \’/\’)}; //關(guān)鍵字匹配var query = keyword ? {$or: [{title: match}, {content: match}]} : {};db.find(query).sort({publishDate: -1}).limit(100).exec(function (err, mails) { event.sender.send(\’search-reply\’, {mails: mails});//處理查詢結(jié)果});

3. UI的實現(xiàn):

桌面應(yīng)用的工程目錄如圖:

使用Electron構(gòu)建跨平臺的抓取桌面程序（electron抓包）

我將UI頁面放到static文件夾下. 在Electron的進(jìn)行前端UI開發(fā)和普通的Web開發(fā)方式一樣, 因為Electron的UI進(jìn)程就是一個Chrome進(jìn)程. Electron啟動時, 主進(jìn)程會執(zhí)行index.js文件, index.js將初始化應(yīng)用的窗口, 設(shè)置大小, 并在窗口加載UI入口頁面index.html.

代碼:index.js

在UI頁面開發(fā)的過程中, 有一點需要注意的是: 默認(rèn)情況下頁面會出現(xiàn)jQuery, require等組件加載失敗的情況, 這是因為瀏覽器window加載了NodeJs的一些方法, 和jQuery類庫的方法沖突. 所以我們需要做些特別的處理, 在瀏覽器window中把這些NodeJs的方法刪掉:

代碼:preload.js

// 解決require沖突導(dǎo)致jQuery等組件不可用的問題window.nodeRequire = require;delete window.require;delete window.exports;delete window.module;// 解決chrome調(diào)試工具devtron不可用的問題window.__devtron = {require: nodeRequire, process: process}

4. 通信的實現(xiàn):

在Web應(yīng)用中, 頁面和服務(wù)的通信都是通過ajax進(jìn)行, 那我們的桌面應(yīng)用不是也可以采用ajax的方式通信? 這樣理論雖然上可行, 但有一個很大弊端: 我們的應(yīng)用需要打開一個http的監(jiān)聽端口, 通常個人操作系統(tǒng)都禁止軟件打開http80端口, 而打開其他端口也容易和別的程序造成端口沖突, 所以我們需要一種更優(yōu)雅的方式進(jìn)行通信.

Electron提供了UI進(jìn)程和主進(jìn)程通信的IPC API, 通過使用IPC通信, 我們就能實現(xiàn)UI頁面向NodeJs服務(wù)邏輯發(fā)起查詢和抓取請求,也能實現(xiàn)NodeJs服務(wù)主動向UI頁面通知抓取進(jìn)度的更新.

使用Electron的IPC非常簡單.

首先, 我們需要在UI中使用ipcRenderer, 向自定義的channel發(fā)出消息.

代碼: app.js

然后, 需要在主進(jìn)程執(zhí)行的NodeJs代碼中使用ipcMain, 監(jiān)聽之前自定義的渠道, 就能接受UI發(fā)出的請求了.

代碼: crawlService.js

const ipcMain = require(\’electron\’).ipcMain;ipcMain.on(\’search-keyword\’, (event, arg) => { ….//處理查詢邏輯});ipcMain.on(\’start-crawl\’, (event, arg) => { ….//處理抓取邏輯});

桌面應(yīng)用打包

解決完以上四個方面的問題后, 剩下的程序?qū)懫饋砭秃唵瘟? 程序調(diào)試完后, 使用electron-builder, 就可以編譯打包出針對不同平臺的可執(zhí)行文件了.

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報，一經(jīng)查實，本站將立刻刪除。

贊 (0)

投稿用戶

區(qū)塊鏈開發(fā)的11種頂級編程語言（區(qū)塊鏈開發(fā)的11種頂級編程語言是什么）

上一篇 2024年5月1日下午3:05

使用 Go 和 Web 技術(shù)構(gòu)建桌面應(yīng)用程序（go使用h5開發(fā)桌面應(yīng)用程序）

下一篇 2024年5月1日下午3:17

聊天方式總是一成不變？教你 5 個「曖昧偏門話題」（聊天產(chǎn)生的曖昧）

交友軟件上，好不容易配對成功，但最終總是敗給有一搭沒一搭的制式對話，或是身家調(diào)查般的尬聊？以下提供給你五個「曖昧偏門話題」，讓你脫離曖昧總是無果的窘境。 1. 不問「喜歡」改問「討…

投稿用戶
科研百科 2024年5月21日
410
北京積分落戶信息系統(tǒng)

北京積分落戶信息系統(tǒng)：讓落戶北京更容易近年來，北京積分落戶信息系統(tǒng)的推出，為北京市的落戶政策帶來了巨大的變化。這個信息系統(tǒng)可以幫助申請人更好地了解自己的積分情況，并幫助他們更好…

投稿用戶
科研百科 2024年11月30日
40
10秒鐘壓縮100張照片，設(shè)計師都在用的壓縮神器，真的絕了（壓縮照片最簡單的方法）

不知道你是不是也像我一樣常常因為圖片過大而無法完成上傳，壓縮過后就變得模糊不清這樣的問題。今天小科就來給大家分享一個超好用的圖片編輯神器，分分鐘幫你搞定各種圖片問題。借用工具：圖…

投稿用戶
科研百科 2023年4月13日
2500
論文忘加基金號能否用來結(jié)題？謹(jǐn)記：不能（論文忘加基金號怎么辦）

論文忘加基金號能否用來結(jié)題?不能。用來結(jié)題的論文加了基金號，才能證明這篇論文是哪個基金的科研成果，才能夠被基金主辦方認(rèn)可。所以，基金負(fù)責(zé)人發(fā)表結(jié)題論文時，千萬別忘了加基金號。論文…

投稿用戶
科研百科 2024年6月20日
430
project制作網(wǎng)絡(luò)計劃

Project Management Network Planning Project management is a critical aspect of any organiz…

投稿用戶
科研百科 2024年10月16日
10
科研立項項目管理平臺（科研立項項目管理平臺有哪些）

項目管理者面臨的最大問題，是需要時間和精力來解決的社會人際關(guān)系障礙。通常，這些障礙是由于不準(zhǔn)確、含糊、不及時或缺乏溝通所造成的誤解而產(chǎn)生的。請記住，在項目管理社區(qū)，溝通被視為對項…

投稿用戶
科研百科 2022年12月22日
3420
系統(tǒng)集成項目管理師筆試

系統(tǒng)集成項目管理師筆試：掌握項目管理的核心技能系統(tǒng)集成項目管理師(PMP)是國際上通行的項目管理職業(yè)認(rèn)證考試，其考試內(nèi)容涵蓋了項目管理的各個方面，包括項目范圍、時間管理、成本管理…

投稿用戶
科研百科 2025年1月27日
20
信息系統(tǒng)項目管理師考試大綱

信息系統(tǒng)項目管理師考試大綱隨著信息技術(shù)的不斷發(fā)展，信息系統(tǒng)項目管理師這一職業(yè)也在不斷地發(fā)展壯大。信息系統(tǒng)項目管理師是負(fù)責(zé)管理信息系統(tǒng)項目的人員，其職責(zé)包括計劃、組織、執(zhí)行和控制信…

投稿用戶
科研百科 2024年12月10日
10
科研百科

科研課題研究方法中的行動研究法（科研課題研究方法有哪些）

1 研究方法這一大家子到底是什么關(guān)系說到研究方法，它并不是母胎單身哦~ 研究方法是研究方式中的一個分支，研究方式包括研究法與研究設(shè)計類，于是研究方法就出現(xiàn)了實地研究法、實驗法，…

投稿用戶
2022年5月4日
9230
工時管理系統(tǒng)｜財務(wù)從“業(yè)務(wù)管理”到“業(yè)務(wù)推動”轉(zhuǎn)變的有效工具

近年來，各種財務(wù)管理名詞不斷涌現(xiàn)，如業(yè)財融合、業(yè)財一體化、戰(zhàn)略財務(wù)等。這些新名詞的出現(xiàn)，反映了財務(wù)在向業(yè)務(wù)環(huán)節(jié)縱深延展，財務(wù)部門的職能也正在從業(yè)務(wù)管理向業(yè)務(wù)推動轉(zhuǎn)變。這要求財務(wù)對業(yè)…

投稿用戶
科研百科 2024年4月23日
600

使用Electron構(gòu)建跨平臺的抓取桌面程序（electron抓包）

使用Electron構(gòu)建跨平臺的抓取桌面程序

相關(guān)推薦