穎科HTML2XML白皮書
InfOnCall HTML2XML
2001/12/05
1.術(shù)語(yǔ)
HTML2XML 模板生成器
HTML2XML 解析引擎
2.簡(jiǎn)介
Infoncall提供了一套HTML2XML工具,用以將HTML文檔自動(dòng)轉(zhuǎn)換為XML文檔。目前主要針對(duì)以表格數(shù)據(jù)為核心(data-centric)的HTML格式文件。這是由于XML標(biāo)準(zhǔn)主要是用以精確標(biāo)識(shí)所包含的數(shù)據(jù),而有進(jìn)一步應(yīng)用需求的HTML文件多以含有Table的
Data-Centric文件為主。目前該工具功能主要包括:
- 提供基于XML的語(yǔ)言來(lái)表達(dá)如何從HTML網(wǎng)頁(yè)獲取復(fù)雜結(jié)構(gòu);
- HTML到XML聲明性文檔的映射,可以根據(jù)相應(yīng)的解析模板自動(dòng)產(chǎn)生XML;
3.背景
Internet的廣泛應(yīng)用和飛速發(fā)展使得以HTML表達(dá)的Web成為了信息的主要發(fā)布渠道之一。人們可以通過(guò)WWW瀏覽豐富的信息資源。而Web越是普及,就越迫切地要求信息內(nèi)容不僅容易表現(xiàn),而且能被應(yīng)用方便地獲取,以提供服務(wù)之間的自動(dòng)化和互操作。人們要求來(lái)自Web的信息以結(jié)構(gòu)化的方式來(lái)訪問(wèn)。W3C制定的可擴(kuò)展標(biāo)記語(yǔ)言(XML)以及其數(shù)據(jù)模型和查詢語(yǔ)言提供了解決之道。可是如今的Web仍然是由許多雜亂的HTML網(wǎng)頁(yè)組成,而不是組織良好的XML文檔。因?yàn)樾枰熏F(xiàn)有的HTML網(wǎng)頁(yè)轉(zhuǎn)換成更靈活應(yīng)用和處理的XML數(shù)據(jù)。為了解決這個(gè)實(shí)際的問(wèn)題,InfonCall提供了HTML2XML的開發(fā)工具,可以來(lái)將基于Web資源包裝成產(chǎn)生所需要的XML文檔。
4.系統(tǒng)架構(gòu)

HTML2XML1.0中包括了兩個(gè)工具:HTML2XML模板生成器和HTML2XML解析引擎。通過(guò)該HTML2XML模板生成器的GUI界面和HTML2XML解析引擎,將HTML文件中的<Table>標(biāo)記中的數(shù)據(jù),根據(jù)指導(dǎo)性文件,轉(zhuǎn)換成XML格式數(shù)據(jù),供其他應(yīng)用程序進(jìn)行進(jìn)一步處理。
Infoncall的 HTML2XML 模板生成器提供方便的用戶界面。HTML網(wǎng)頁(yè)內(nèi)容編輯人員,選定所需要的HTML內(nèi)容后,以可視化的圖形方式,用鼠標(biāo)進(jìn)行拖拉操作即可完成對(duì)HTML內(nèi)容的獲取。用戶不必了解所編輯HTML文件的源代碼。當(dāng)保存編輯結(jié)果后,即可生成針對(duì)該類HTML文件的解析模板和DEMO解析結(jié)果。
HTML2XML解析引擎支持兩種用戶界面:Service和API。Service界面不需要用戶有較深的編程經(jīng)驗(yàn);API界面為開發(fā)人員提供更靈活的編程接口。模板使用人員在開發(fā)具體應(yīng)用時(shí),通過(guò)parser
解析引擎裝載不同模板,解析得到相應(yīng)的結(jié)果。解析結(jié)果返回XML格式的字符串和保存為指定文件,以供進(jìn)一步處理。若模板裝載發(fā)生錯(cuò)誤或開發(fā)人員未指定模板,解析引擎則按無(wú)模板的方式進(jìn)行處理。此時(shí),解析引擎解析所有Table中的數(shù)據(jù)到XML文件中。
5. 產(chǎn)品功能和特點(diǎn)
5.1 產(chǎn)品功能
Infoncall的HTML2XML工具,提供以下功能:
- 用戶可以任意指定URL來(lái)獲取Web信息;
- 目標(biāo)的HTML頁(yè)面可以是靜態(tài)網(wǎng)頁(yè),也可以動(dòng)態(tài)生成;
- 提供可視化的界面讓用戶拖拉式選擇需要獲取的頁(yè)面元素
- 輸出的方式可以是靜態(tài)信息也可以是動(dòng)態(tài)方式
- 可以存儲(chǔ)、編輯和調(diào)入映射信息
- 映射規(guī)則的描述基于XML,具有擴(kuò)展性
5.2 產(chǎn)品特點(diǎn)
Infoncall的HTML2XML開發(fā)工具將給您帶來(lái)如下的優(yōu)勢(shì):
- 無(wú)縫升級(jí)到基于XML的網(wǎng)站系統(tǒng)
- 提供多 渠道發(fā)布的轉(zhuǎn)換中間件;
- 將原有的信息的內(nèi)容和表現(xiàn)更好的分離,有利于增加商業(yè)機(jī)會(huì),提高企業(yè)靈活度和競(jìng)爭(zhēng)力。
6.應(yīng)用前景
Infoncall HTML2XML工具可以應(yīng)用的情景的有:
1)網(wǎng)站與增值服務(wù)提供商的數(shù)據(jù)交換。
一般的情形,網(wǎng)站已經(jīng)通過(guò)Internet發(fā)布其信息內(nèi)容(比如匯率、證券信息、氣象信息等),這樣的信息通常是通過(guò)其服務(wù)系統(tǒng)不同的格式和渠道進(jìn)行發(fā)布(比如提供給WAP手機(jī))。在進(jìn)行實(shí)施過(guò)程中,要直接開放其原來(lái)的后臺(tái)數(shù)據(jù)庫(kù)可能對(duì)數(shù)據(jù)來(lái)源的安全性造成影響;或者有可能不同的頻道信息來(lái)自不同的網(wǎng)站,也就可能來(lái)自不同的平臺(tái)和數(shù)據(jù)庫(kù)。這就需要直接針對(duì)HTML,通過(guò)調(diào)用應(yīng)用服務(wù)器而不是訪問(wèn)后臺(tái)數(shù)據(jù)庫(kù)的方式來(lái)獲取網(wǎng)頁(yè)信息,并且轉(zhuǎn)換成為統(tǒng)一的基于XML格式。XML具有獨(dú)立于平臺(tái)和發(fā)布渠道的特點(diǎn),可以很好地用于各種不同方式的發(fā)布。
2)網(wǎng)站的重新設(shè)計(jì)。
目前HTML的固有缺點(diǎn)已經(jīng)使得原來(lái)的網(wǎng)站模式很難符合新的需求,特別是在商務(wù)之間相互通信的場(chǎng)合,XML的產(chǎn)生和相關(guān)技術(shù)的成熟,特別是基于XML的XHTML逐漸更新HTML,使得越來(lái)越多的網(wǎng)站逐漸升級(jí)到基于XML設(shè)計(jì)的網(wǎng)站。在這個(gè)過(guò)程中既要將新的內(nèi)容以XML的方式存儲(chǔ)和發(fā)布,同時(shí)也要考慮到兼容原來(lái)的數(shù)據(jù)。這就需要將原來(lái)的數(shù)據(jù)進(jìn)行組織和轉(zhuǎn)換。對(duì)于數(shù)據(jù)庫(kù),可以通過(guò)數(shù)據(jù)庫(kù)到XML的轉(zhuǎn)化來(lái)實(shí)現(xiàn)(Infoncall也提供了通用的數(shù)據(jù)庫(kù)轉(zhuǎn)換到XML的工具DB2XML)。同時(shí)許多靜態(tài)的HTML網(wǎng)頁(yè)也需要轉(zhuǎn)換,其中攙雜了許多重要的信息。Infoncall
HTML2XML也提供了這樣機(jī)制,既可以將HTML轉(zhuǎn)換成的XHTML,也可以將其轉(zhuǎn)換為獨(dú)立于應(yīng)用的XML通用格式,然后通過(guò)XSL進(jìn)行網(wǎng)站的發(fā)布。這將是新一代網(wǎng)站發(fā)展中的重要環(huán)節(jié)。
穎科公司供稿 CTI論壇編輯
金乡县|
大名县|
板桥市|
抚远县|
北京市|
扬州市|
乌兰察布市|
神农架林区|
保亭|
渝中区|
延庆县|
承德县|
家居|
左贡县|
金华市|
德阳市|
乐清市|
迁安市|
南宫市|
鄱阳县|
土默特右旗|
乌鲁木齐县|
连平县|
涿州市|
砀山县|
七台河市|
昌宁县|
达拉特旗|
安阳市|
新巴尔虎左旗|
陵水|
德保县|
武义县|
和田市|
临清市|
禄劝|
平阳县|
嘉峪关市|
西乌珠穆沁旗|
江津市|
台湾省|