开发者

谷歌学术搜索的风雨十年?

在今年《自然》杂志进行的一项调查中,60%的科学家表示他们经常使用这项服务。日前,《自然》杂志与谷歌学术联合创始人阿努拉格阿查里亚(Anurag Acharya)进行了交谈,畅谈了谷歌学术的过去和未来。

问:你如何知道哪些文献需要检索?

答:“学术”是学术领域其他人认为的学术。这听起来像一个递归定义,但这是真的。我们通过爬虫抓取所有网页。以一篇新发表的博客为例,我们将判断它与其他学术文章的关系。如果很多人引用它,或者它引用了很多人的文章,那么它可能有学术价值。没有什么神奇的公式可以应用,但只能从很多特征中找到证据。

问:创建谷歌学术的想法从何而来?

答:我是2000年来到谷歌的。在此之前,我在加州大学圣巴巴拉分校从事学术工作。显然,如果我继续从事学术研究,我不可能比留在谷歌产生更大的影响——让全世界的人都能找到信息。因此,我放弃了学术道路,花了四年时间管理谷歌网络搜索团队。这是异常忙碌的一天,整个人都筋疲力尽了。

Alex Verstak(注:阿查里亚在网络搜索团队的同事)和我决定休假半年,试图利用这段时间让学术文章的搜索变得更加方便快捷。当时的想法不是创建谷歌学术,而是当用户在网络上搜索学术文章时,提高谷歌的排名。但是,接下来的问题是如何确定搜索用户的意图:他们是需要学术成果还是只是外行?基于此,我们建立了一个内部原型,谷歌学术成为一个非常有用和重要的服务。

问:这个想法很快就取得了成功吗?

它很快就流行起来了。谷歌学术上市后,使用率呈指数级增长。一个重要的区别是,我们根据与用户请求的相关性对搜索结果进行排名,这是以前的学术搜索服务无法做到的。它们的顺序相反,即先提供最新的结果。我们还通过爬虫抓取了研究论文的全文,虽然一开始并没有收录所有出版商的文本。

问:花了很多年才说服文献出版社允许你们抓去全文,当时是不是感觉很困难?

答:这得考虑到十年前的情况,当时互联网搜索还很轻——人们宁愿搜索布兰妮的照片,也不愿意搜索学术文献。但我们知道,有纯粹的学术搜索请求,我们必须说服出版商,我们的服务将为他们带来更多的流量。当然,在谷歌学术搜索推出之前,我们就和他们合作过。

问:2012年,谷歌学术从谷歌主页搜索选项的下拉式菜单中消失。你是否担心谷歌学术的地位可能下降或者被砍掉?

别担心。我们的团队在不断壮大,从成立之初的两个人发展到现在的九个人。很多人可能会把谷歌学术从主页菜单中退出看作是一种降级,但事实并非如此。这些菜单链接旨在帮助用户从主页转移到其他服务,因此它们将突出显示最常用的转换链接。如果用户已经知道如何启动谷歌学术,他们不需要那个转换链接。就这样。

问:谷歌学术如何盈利?

答:谷歌学术尚未盈利。事实上,谷歌提供的许多服务并不赚钱。谷歌的首要学术取向是回馈学术界。我们之所以一直成功到现在,是因为在谷歌看来,这项服务的成本并不高。就访问量而言,谷歌学术与很多谷歌服务相比是非常小的,所以从广告中获利的机会相对较少。然而,到目前为止,我们没有盈利的压力。

问:谷歌学术每天的访问量是多少?这项服务能追踪多少文献?

答:我不能回答你。这是一个非常非常大的数字。被跟踪的文档数量也是如此,只是——自从我们推出谷歌学习以来,这个数字增加了一个数量级。很多人关心这些数字,但真的没必要。我们关心的是用户是否能找到他们想要的文档。如果文学本身是稀缺的,这些数字确实很重要,但显然我们有足够的文学。

问:谷歌学术已经推出了额外的服务:例如作者的资料页和一个推荐引擎。这意味着谷歌学术准备从一个搜索引擎转向成为类似文献计量学的工具吗?

答:有和没有。推出信息页面的目的是帮助用户找到他们需要的文档。有时你可能会忘记文档的标题,但你可能会记住它的作者,这样你就可以找到相关的文档。你也可以追踪一个作者的文献和作品,这也是寻找文献的线索。当然,信息页面还有其他用途。通过阅读一个人的信息页面,我们可以了解他的学术演变,他的学术伙伴是谁,甚至可以推荐一些他所在领域的其他研究者关注的话题。

问:你担心这种把戏吗 -- 造假的文献通过被谷歌学术检索增加引用量?

别担心。是的,你可以添加任何你想要的文件。然而,一切都是可见的——在你的信息页面上列出的文档,引用你的文档的文档等等。如果发现你造假,世界上任何人都可以打电话给你,基本上你的学术生涯就结束了。正是因为这个原因,我们才没有看到垃圾邮件。我有很多处理垃圾邮件的经验,因为我以前在搜索部门工作。当人们匿名时,垃圾邮件会变得更容易。但是如果我想建立我的公共出版物的历史,我会更加谨慎。

问:未来谷歌学术会有什么样的改变?

答:我们非常擅长帮助用户找到他们正在搜索的文章。然而,我们打算做的下一件大事是提供帮助。

户找到他们需要但又不知如何搜索的文章。我们能否让意外发现变得更加容易? 如何帮助每个人在无须翻阅上百篇论文导致一整天任何其他事都干不了的情况下,轻松掌握学术前沿?

我不知道我们将如何实现这个目标。尽管在这方面我们已经做了一些初步努力如推出建议搜索引擎,但离想要的东西还相去甚远。在向用户推送不是其主动搜索的信息时,存在一个本质性问题:内容必须具有相关性,确保我们没有浪费用户时间,但又不能太相关,因为用户已经知道这些文章。

问:怎么帮助用户直接找到数据而不是文献呢?

答:这是一个有趣的想法。在收费文献里搜索数据是完全可行的。但当我们给用户的搜索结果指向一个收费文献时,用户只能看到摘要。对全文检索而言,我们也是依靠提供摘要信息让用户评估某篇文献对他们是否有用。我们还没有针对数据搜索建立类似文本搜索的模型。

问:许多人希望能通过谷歌学术开放API,这样他们可以自己写搜索的脚本或自动获取别人的资料页,在此之上提供更多的服务。这可行吗?

答:我不能这么做。我们自己和出版商合作伙伴都不会喜欢这个想法。我们被允许扫描所有的文献,而不是讲这个信息分发出去。和出版商的合作非常重要,我们因此得以可以继续构建一个对所有人免费的全面搜索服务。这是我们的初心,其他任何东西都是次要的。

问:下一个十年你还会为谷歌学术工作吗?

答:首先我从来没想到我竟然为谷歌学术忙活了十年!我妻子在我(为谷歌学术)工作了 5 年、7 年的时候提醒过我(工作了这么久),而我现在还没离开。谷歌学术是我能想到我能做的最重要的事情,我们的工作使这个星球上最聪明的人更有效率。离开谷歌学术是一个非常有吸引力的命题,而我无法预见它会很快很轻松地实现。

问:当你还是印度理工学院的学生时,你是否想过要是有这么一个免费、有效的搜索引擎该多好?

答:(谷歌学术) 影响了我曾经关注的问题。举例来说,当开发者_C百科时没有任何工具可以对只提供摘要的收费文献进行全文检索。我认为这是需要被解决的问题,因为对读者来说,需要知道信息在哪儿。如果你知道一个关键的信息在一篇收费文献里,你可以写信给作者。但在这一点上,谷歌学术有它自己的生命。

问:使用谷歌学术的用户是否有必要担心数据隐私问题?

答:我们采用标准的谷歌数据收集政策,谷歌学术也不例外。我在谷歌的角色主要是负责谷歌学术,所以不会谈太多更宽泛的问题。

0

上一篇:

下一篇:

精彩评论

暂无评论...
验证码 换一张
取 消

最新问答

问答排行榜