【賽迪網(wǎng)訊】北京時(shí)間7月21日《商業(yè)周刊》文章指出,谷歌正在進(jìn)行收購ITA Software的交易,后者雖然只是一家名不見經(jīng)傳的飛機(jī)票價(jià)信息供應(yīng)商,但它卻可以幫助谷歌進(jìn)入垂直旅游搜索領(lǐng)域。此外,收購該公司還可能會(huì)讓谷歌與ITA的客戶如Kayak和必應(yīng)展開競爭。
旅游并非ITA唯一專注的領(lǐng)域,早在幾年之前,ITA的研究部門就開始研究一種能夠讓用戶利用網(wǎng)絡(luò)資料來創(chuàng)建自己的數(shù)據(jù)庫的工具。 那款名為Needlebase的工具可以將雜亂無章且經(jīng)常變化的信息變得結(jié)構(gòu)清晰和井井有條。
Needlebase從1月份開始進(jìn)行免費(fèi)測試,它利用機(jī)器習(xí)得技術(shù)將從網(wǎng)站和其他來源獲得的數(shù)據(jù)匯編成一個(gè)托管數(shù)據(jù)庫,供垂直搜索引擎使用。 它與谷歌本月收購的另一家語義網(wǎng)絡(luò)/結(jié)構(gòu)化數(shù)據(jù)公司Metaweb開發(fā)的Freebase工具很相似,但是與類似于Freebase的大型公共數(shù)據(jù)庫不同的是,Needlebase每一位用戶的帳戶都是不公開的。不管是否具備專業(yè)技術(shù)知識,任何人都可以用Needlebase來組織和利用網(wǎng)絡(luò)數(shù)據(jù)建立自己的數(shù)據(jù)庫。它的功能非常強(qiáng)大,而且可靠性也很強(qiáng),足以作為部分后臺資源用于商業(yè)化垂直搜索引擎。
從收購Needlebase可以看出谷歌的垂直搜索戰(zhàn)略。 谷歌以前從未收購過象ITA這樣專注于某些特定領(lǐng)域的公司,但是Needlebase并非專注于特定領(lǐng)域的工具。 正如筆者在以前發(fā)表的一篇關(guān)于谷歌進(jìn)入垂直搜索領(lǐng)域的文章中提到:“谷歌可能會(huì)將ITA作為一塊跳板,幫助它進(jìn)軍更多的垂直搜索領(lǐng)域,而且它不用再收購更多的公司或開發(fā)新產(chǎn)品。 也許谷歌對垂直搜索很感興趣,但是它可能對輕松獲得海量非結(jié)構(gòu)化數(shù)據(jù)并讓它們變得結(jié)構(gòu)清晰更感興趣一些。 這種技術(shù)簡直具有點(diǎn)石成金之效。”
Needlebase的開發(fā)團(tuán)隊(duì)共有14位成員,由ITA網(wǎng)絡(luò)數(shù)據(jù)集成副總裁Justin Boyan領(lǐng)導(dǎo)。他是美國國家航空航天局阿梅研究中心(Ames Research Center)的一位不定期的匿名網(wǎng)絡(luò)研究員,他在ITA已經(jīng)工作了近10年的時(shí)間。 Boyan最近在接受一次電話采訪時(shí)表示,他認(rèn)為Needlebase符合谷歌對ITA的未來規(guī)劃,他對Needlebase未來的發(fā)展表示樂觀,Needlebase將繼續(xù)為現(xiàn)有用戶和新用戶服務(wù)。
Needlebase可以說是ITA主要的飛機(jī)機(jī)票信息產(chǎn)品QPX背后的某些技術(shù)的普遍版本,Boyan在描述Needlebase的動(dòng)力時(shí)說:“它不需要解決AI問題。 也不需要花費(fèi)人力去維護(hù)Perl腳本。 它似乎可以很好地與我們已經(jīng)非常熟悉的機(jī)器習(xí)得技術(shù)相互配合。”
基于云的Needlebase配備了一款從網(wǎng)站收集數(shù)據(jù)的向?qū)Чぞ?。不管是使用了大量腳本語言或表格的網(wǎng)頁還是CSV、XML和Excel文件,Needlebase都能從中收集數(shù)據(jù)。 而且Needlebase在從已經(jīng)讀取過的數(shù)據(jù)來源更新數(shù)據(jù)的時(shí)候,它還可以記住用戶編輯、清除和復(fù)制的信息,并自動(dòng)將它們應(yīng)用到新數(shù)據(jù)的收集過程中。 Needlebase可以自動(dòng)修改不正常的數(shù)據(jù),給數(shù)據(jù)添加地域符號,修復(fù)大寫和進(jìn)行其他修改,最終讓數(shù)據(jù)能夠被合并到數(shù)據(jù)庫中并能被用戶查詢。
Boyan表示,到目前為止,Needlebase一直被普遍應(yīng)用于各種信息的管理,包括電影、求職、酒店、新聞、天氣和石油泄漏等等。 2010年世界杯各項(xiàng)數(shù)據(jù)統(tǒng)計(jì)和重金屬樂隊(duì)就有很多應(yīng)用Needlebase來管理信息的例子。 Boyan稱,Needlebase被定性為一款商業(yè)級工具。 他說:“我們正在尋找從事信息聚合工作的公司,他們建立垂直搜索引擎,從事數(shù)據(jù)收集、分析和商業(yè)分析。”他說他希望很快就能宣布Needle獲得首批付費(fèi)用戶的消息。 Needlebase將采用類似于云產(chǎn)品的即付即用型定價(jià)模式,根據(jù)客戶獲得、托管和發(fā)布的數(shù)據(jù)量來定價(jià)。
實(shí)際上,到目前為止,Needlebase并未公開發(fā)布過。 獲得谷歌的支持后,情況將會(huì)發(fā)生變化。 這項(xiàng)交易可能還會(huì)對某些潛在客戶造成影響,因?yàn)樗鼈儞?dān)心谷歌將與它們爭奪垂直搜索市場。