【賽迪網(wǎng)訊】北京時(shí)間7月21日《商業(yè)周刊》文章指出,谷歌正在進(jìn)行收購(gòu)ITA Software的交易,后者雖然只是一家名不見(jiàn)經(jīng)傳的飛機(jī)票價(jià)信息供應(yīng)商,但它卻可以幫助谷歌進(jìn)入垂直旅游搜索領(lǐng)域。此外,收購(gòu)該公司還可能會(huì)讓谷歌與ITA的客戶如Kayak和必應(yīng)展開(kāi)競(jìng)爭(zhēng)。
旅游并非ITA唯一專(zhuān)注的領(lǐng)域,早在幾年之前,ITA的研究部門(mén)就開(kāi)始研究一種能夠讓用戶利用網(wǎng)絡(luò)資料來(lái)創(chuàng)建自己的數(shù)據(jù)庫(kù)的工具。 那款名為Needlebase的工具可以將雜亂無(wú)章且經(jīng)常變化的信息變得結(jié)構(gòu)清晰和井井有條。
Needlebase從1月份開(kāi)始進(jìn)行免費(fèi)測(cè)試,它利用機(jī)器習(xí)得技術(shù)將從網(wǎng)站和其他來(lái)源獲得的數(shù)據(jù)匯編成一個(gè)托管數(shù)據(jù)庫(kù),供垂直搜索引擎使用。 它與谷歌本月收購(gòu)的另一家語(yǔ)義網(wǎng)絡(luò)/結(jié)構(gòu)化數(shù)據(jù)公司Metaweb開(kāi)發(fā)的Freebase工具很相似,但是與類(lèi)似于Freebase的大型公共數(shù)據(jù)庫(kù)不同的是,Needlebase每一位用戶的帳戶都是不公開(kāi)的。不管是否具備專(zhuān)業(yè)技術(shù)知識(shí),任何人都可以用Needlebase來(lái)組織和利用網(wǎng)絡(luò)數(shù)據(jù)建立自己的數(shù)據(jù)庫(kù)。它的功能非常強(qiáng)大,而且可靠性也很強(qiáng),足以作為部分后臺(tái)資源用于商業(yè)化垂直搜索引擎。
從收購(gòu)Needlebase可以看出谷歌的垂直搜索戰(zhàn)略。 谷歌以前從未收購(gòu)過(guò)象ITA這樣專(zhuān)注于某些特定領(lǐng)域的公司,但是Needlebase并非專(zhuān)注于特定領(lǐng)域的工具。 正如筆者在以前發(fā)表的一篇關(guān)于谷歌進(jìn)入垂直搜索領(lǐng)域的文章中提到:“谷歌可能會(huì)將ITA作為一塊跳板,幫助它進(jìn)軍更多的垂直搜索領(lǐng)域,而且它不用再收購(gòu)更多的公司或開(kāi)發(fā)新產(chǎn)品。 也許谷歌對(duì)垂直搜索很感興趣,但是它可能對(duì)輕松獲得海量非結(jié)構(gòu)化數(shù)據(jù)并讓它們變得結(jié)構(gòu)清晰更感興趣一些。 這種技術(shù)簡(jiǎn)直具有點(diǎn)石成金之效。”
Needlebase的開(kāi)發(fā)團(tuán)隊(duì)共有14位成員,由ITA網(wǎng)絡(luò)數(shù)據(jù)集成副總裁Justin Boyan領(lǐng)導(dǎo)。他是美國(guó)國(guó)家航空航天局阿梅研究中心(Ames Research Center)的一位不定期的匿名網(wǎng)絡(luò)研究員,他在ITA已經(jīng)工作了近10年的時(shí)間。 Boyan最近在接受一次電話采訪時(shí)表示,他認(rèn)為Needlebase符合谷歌對(duì)ITA的未來(lái)規(guī)劃,他對(duì)Needlebase未來(lái)的發(fā)展表示樂(lè)觀,Needlebase將繼續(xù)為現(xiàn)有用戶和新用戶服務(wù)。
Needlebase可以說(shuō)是ITA主要的飛機(jī)機(jī)票信息產(chǎn)品Q(chēng)PX背后的某些技術(shù)的普遍版本,Boyan在描述Needlebase的動(dòng)力時(shí)說(shuō):“它不需要解決AI問(wèn)題。 也不需要花費(fèi)人力去維護(hù)Perl腳本。 它似乎可以很好地與我們已經(jīng)非常熟悉的機(jī)器習(xí)得技術(shù)相互配合。”
基于云的Needlebase配備了一款從網(wǎng)站收集數(shù)據(jù)的向?qū)Чぞ?。不管是使用了大量腳本語(yǔ)言或表格的網(wǎng)頁(yè)還是CSV、XML和Excel文件,Needlebase都能從中收集數(shù)據(jù)。 而且Needlebase在從已經(jīng)讀取過(guò)的數(shù)據(jù)來(lái)源更新數(shù)據(jù)的時(shí)候,它還可以記住用戶編輯、清除和復(fù)制的信息,并自動(dòng)將它們應(yīng)用到新數(shù)據(jù)的收集過(guò)程中。 Needlebase可以自動(dòng)修改不正常的數(shù)據(jù),給數(shù)據(jù)添加地域符號(hào),修復(fù)大寫(xiě)和進(jìn)行其他修改,最終讓數(shù)據(jù)能夠被合并到數(shù)據(jù)庫(kù)中并能被用戶查詢(xún)。
Boyan表示,到目前為止,Needlebase一直被普遍應(yīng)用于各種信息的管理,包括電影、求職、酒店、新聞、天氣和石油泄漏等等。 2010年世界杯各項(xiàng)數(shù)據(jù)統(tǒng)計(jì)和重金屬樂(lè)隊(duì)就有很多應(yīng)用Needlebase來(lái)管理信息的例子。 Boyan稱(chēng),Needlebase被定性為一款商業(yè)級(jí)工具。 他說(shuō):“我們正在尋找從事信息聚合工作的公司,他們建立垂直搜索引擎,從事數(shù)據(jù)收集、分析和商業(yè)分析。”他說(shuō)他希望很快就能宣布Needle獲得首批付費(fèi)用戶的消息。 Needlebase將采用類(lèi)似于云產(chǎn)品的即付即用型定價(jià)模式,根據(jù)客戶獲得、托管和發(fā)布的數(shù)據(jù)量來(lái)定價(jià)。
實(shí)際上,到目前為止,Needlebase并未公開(kāi)發(fā)布過(guò)。 獲得谷歌的支持后,情況將會(huì)發(fā)生變化。 這項(xiàng)交易可能還會(huì)對(duì)某些潛在客戶造成影響,因?yàn)樗鼈儞?dān)心谷歌將與它們爭(zhēng)奪垂直搜索市場(chǎng)。