穎科HTML2XML白皮書
InfOnCall HTML2XML
2001/12/05
1.術(shù)語
HTML2XML 模板生成器
HTML2XML 解析引擎
2.簡(jiǎn)介
Infoncall提供了一套HTML2XML工具,用以將HTML文檔自動(dòng)轉(zhuǎn)換為XML文檔。目前主要針對(duì)以表格數(shù)據(jù)為核心(data-centric)的HTML格式文件。這是由于XML標(biāo)準(zhǔn)主要是用以精確標(biāo)識(shí)所包含的數(shù)據(jù),而有進(jìn)一步應(yīng)用需求的HTML文件多以含有Table的
Data-Centric文件為主。目前該工具功能主要包括:
- 提供基于XML的語言來表達(dá)如何從HTML網(wǎng)頁獲取復(fù)雜結(jié)構(gòu);
- HTML到XML聲明性文檔的映射,可以根據(jù)相應(yīng)的解析模板自動(dòng)產(chǎn)生XML;
3.背景
Internet的廣泛應(yīng)用和飛速發(fā)展使得以HTML表達(dá)的Web成為了信息的主要發(fā)布渠道之一。人們可以通過WWW瀏覽豐富的信息資源。而Web越是普及,就越迫切地要求信息內(nèi)容不僅容易表現(xiàn),而且能被應(yīng)用方便地獲取,以提供服務(wù)之間的自動(dòng)化和互操作。人們要求來自Web的信息以結(jié)構(gòu)化的方式來訪問。W3C制定的可擴(kuò)展標(biāo)記語言(XML)以及其數(shù)據(jù)模型和查詢語言提供了解決之道。可是如今的Web仍然是由許多雜亂的HTML網(wǎng)頁組成,而不是組織良好的XML文檔。因?yàn)樾枰熏F(xiàn)有的HTML網(wǎng)頁轉(zhuǎn)換成更靈活應(yīng)用和處理的XML數(shù)據(jù)。為了解決這個(gè)實(shí)際的問題,InfonCall提供了HTML2XML的開發(fā)工具,可以來將基于Web資源包裝成產(chǎn)生所需要的XML文檔。
4.系統(tǒng)架構(gòu)

HTML2XML1.0中包括了兩個(gè)工具:HTML2XML模板生成器和HTML2XML解析引擎。通過該HTML2XML模板生成器的GUI界面和HTML2XML解析引擎,將HTML文件中的<Table>標(biāo)記中的數(shù)據(jù),根據(jù)指導(dǎo)性文件,轉(zhuǎn)換成XML格式數(shù)據(jù),供其他應(yīng)用程序進(jìn)行進(jìn)一步處理。
Infoncall的 HTML2XML 模板生成器提供方便的用戶界面。HTML網(wǎng)頁內(nèi)容編輯人員,選定所需要的HTML內(nèi)容后,以可視化的圖形方式,用鼠標(biāo)進(jìn)行拖拉操作即可完成對(duì)HTML內(nèi)容的獲取。用戶不必了解所編輯HTML文件的源代碼。當(dāng)保存編輯結(jié)果后,即可生成針對(duì)該類HTML文件的解析模板和DEMO解析結(jié)果。
HTML2XML解析引擎支持兩種用戶界面:Service和API。Service界面不需要用戶有較深的編程經(jīng)驗(yàn);API界面為開發(fā)人員提供更靈活的編程接口。模板使用人員在開發(fā)具體應(yīng)用時(shí),通過parser
解析引擎裝載不同模板,解析得到相應(yīng)的結(jié)果。解析結(jié)果返回XML格式的字符串和保存為指定文件,以供進(jìn)一步處理。若模板裝載發(fā)生錯(cuò)誤或開發(fā)人員未指定模板,解析引擎則按無模板的方式進(jìn)行處理。此時(shí),解析引擎解析所有Table中的數(shù)據(jù)到XML文件中。
5. 產(chǎn)品功能和特點(diǎn)
5.1 產(chǎn)品功能
Infoncall的HTML2XML工具,提供以下功能:
- 目標(biāo)的HTML頁面可以是靜態(tài)網(wǎng)頁,也可以動(dòng)態(tài)生成;
- 提供可視化的界面讓用戶拖拉式選擇需要獲取的頁面元素
- 輸出的方式可以是靜態(tài)信息也可以是動(dòng)態(tài)方式
- 可以存儲(chǔ)、編輯和調(diào)入映射信息
- 映射規(guī)則的描述基于XML,具有擴(kuò)展性
5.2 產(chǎn)品特點(diǎn)
Infoncall的HTML2XML開發(fā)工具將給您帶來如下的優(yōu)勢(shì):
- 無縫升級(jí)到基于XML的網(wǎng)站系統(tǒng)
- 提供多 渠道發(fā)布的轉(zhuǎn)換中間件;
- 將原有的信息的內(nèi)容和表現(xiàn)更好的分離,有利于增加商業(yè)機(jī)會(huì),提高企業(yè)靈活度和競(jìng)爭(zhēng)力。
6.應(yīng)用前景
Infoncall HTML2XML工具可以應(yīng)用的情景的有:
1)網(wǎng)站與增值服務(wù)提供商的數(shù)據(jù)交換。
一般的情形,網(wǎng)站已經(jīng)通過Internet發(fā)布其信息內(nèi)容(比如匯率、證券信息、氣象信息等),這樣的信息通常是通過其服務(wù)系統(tǒng)不同的格式和渠道進(jìn)行發(fā)布(比如提供給WAP手機(jī))。在進(jìn)行實(shí)施過程中,要直接開放其原來的后臺(tái)數(shù)據(jù)庫可能對(duì)數(shù)據(jù)來源的安全性造成影響;或者有可能不同的頻道信息來自不同的網(wǎng)站,也就可能來自不同的平臺(tái)和數(shù)據(jù)庫。這就需要直接針對(duì)HTML,通過調(diào)用應(yīng)用服務(wù)器而不是訪問后臺(tái)數(shù)據(jù)庫的方式來獲取網(wǎng)頁信息,并且轉(zhuǎn)換成為統(tǒng)一的基于XML格式。XML具有獨(dú)立于平臺(tái)和發(fā)布渠道的特點(diǎn),可以很好地用于各種不同方式的發(fā)布。
2)網(wǎng)站的重新設(shè)計(jì)。
目前HTML的固有缺點(diǎn)已經(jīng)使得原來的網(wǎng)站模式很難符合新的需求,特別是在商務(wù)之間相互通信的場(chǎng)合,XML的產(chǎn)生和相關(guān)技術(shù)的成熟,特別是基于XML的XHTML逐漸更新HTML,使得越來越多的網(wǎng)站逐漸升級(jí)到基于XML設(shè)計(jì)的網(wǎng)站。在這個(gè)過程中既要將新的內(nèi)容以XML的方式存儲(chǔ)和發(fā)布,同時(shí)也要考慮到兼容原來的數(shù)據(jù)。這就需要將原來的數(shù)據(jù)進(jìn)行組織和轉(zhuǎn)換。對(duì)于數(shù)據(jù)庫,可以通過數(shù)據(jù)庫到XML的轉(zhuǎn)化來實(shí)現(xiàn)(Infoncall也提供了通用的數(shù)據(jù)庫轉(zhuǎn)換到XML的工具DB2XML)。同時(shí)許多靜態(tài)的HTML網(wǎng)頁也需要轉(zhuǎn)換,其中攙雜了許多重要的信息。Infoncall
HTML2XML也提供了這樣機(jī)制,既可以將HTML轉(zhuǎn)換成的XHTML,也可以將其轉(zhuǎn)換為獨(dú)立于應(yīng)用的XML通用格式,然后通過XSL進(jìn)行網(wǎng)站的發(fā)布。這將是新一代網(wǎng)站發(fā)展中的重要環(huán)節(jié)。
穎科公司供稿 CTI論壇編輯
梅河口市|
海口市|
故城县|
浪卡子县|
双城市|
黎城县|
临安市|
札达县|
杂多县|
寻乌县|
巴马|
襄汾县|
上高县|
定边县|
资中县|
专栏|
麻城市|
葵青区|
扎鲁特旗|
宁强县|
涿鹿县|
大安市|
万源市|
全州县|
会理县|
温州市|
峨山|
仁怀市|
洞头县|
色达县|
武安市|
钟山县|
台山市|
和田市|
白银市|
卢湾区|
阜新市|
栖霞市|
四川省|
都兰县|
康乐县|