Introduction
在这篇文章中,你将学到什么?
1.通配符的使用
2.高级搜索技巧
3.搜索信息的方法论
学习这些的内容好处如下:
1.在数不尽的网页中,找到你真正想要的信息,很多时候并不是我们想要的“不存在”,而是我们“没问对方式”,毕竟世界这么大,我们所遇到的问题,总会有其他人也遇到过的,you are not alone.
(据不完全统计,Google的网页数量大概在10¹¹~10¹²这个数量级,比银河系里恒星的数量还要多)
2.在自己不了解事物的某一方面时,仍然能够用合适的语法,尽可能逼近你希望得到的信息,并让它以你希望的形式出现。
3.拓展出一套信息搜索的思维方法。
Ready? Let’s go!
什么是通配符(wildcard)?
举一个例子,你很快就懂了。
比如我想要搜一句谚语,只记得句子的结构是"a xxx saved is a xxx earned",倘若你就这么去搜了,那么Google可能误会你的意思,给你返回标题形如:"Myth: You should have “xxx” amount of money saved up by …"这样的网页,
那么如果把xxx的位置空着呢?或许Google会聪明一些,帮你补全一些可能缺失的内容,但它不一定补得对,于是整个过程就十分地看运气。
此时便是通配符派上用场的时候,我们可以搜索:
“a * saved is a * earned”
这里出现的"*"就是通配符,有了它,Google就清楚地知道它需要在这两处进行填空,并将填好空的搜索请求返回给你,于是你得到了那句谚语的原句:
“A penny saved is a penny earned.”
(你不花掉的钱,效果上和你多赚一笔钱是一样的)
再比如:
说我想要搜索minecraft的一个mod,只记得mod名称是 xxx forest,那么我可以去搜"minecraft * forest mod",搜索效果是要比"minecraft forest mod"更好一些的。
由Google帮你自动填写可能的词语的部分,称为短语补全(phrase completion),在这种情况下,你会得到一些类似twilight forest, enchanted forest或dark forest等结果,而使用后者搜索,Google会进行模糊搜索(semantic guess)的操作,它会猜测你想要表达的东西,于是难免出现一些偏差。比如出现的搜索结果可能是forest xxx,而非xxx forest.
通配符的本质是“留白”,有了通配符,我们搜索的灵活度和弹性可以得到很大的提升。
高级搜索技巧(advanced search)
除了"*",还有其他实用的搜索技巧,这里通过几个例子来列举它们:
- “computer science”
" “” “: exact word,引号内的内容只字不差,不能是computer system,也不能是其他,必须是"computer science”.
- site:apple.com “iPad user manual”
“site:”: 指定网站,于是Google返回的结果指向了apple官网,并且必须有"iPad user manual"这个phrase
- inurl:blog sam altman
“inurl:”: url(网址)中包含出现blog,于是Google更有可能给你返回博客(blog)网页,与"site:"不同的是,"inurl"只需要在链接中出现keyword即可,而前者限定了某个网站。
- filetype:pdf machine learning
“filetype:”: 指定返回的资源类型,in this case,Google会返回pdf资源
5.imagesize:3840x2160 anime girl image -busty
“-”: minus,表示在搜索的结果中去除这个关键字,说明我想要的anime图片中不希望包含巨乳元素
(imagesize:3840x2160表示返回4k图片内容,这里一笔带过了)
- filetype:pdf site:*.edu philosophy in (manga OR anime)
“(a OR b)”: 搜索结果中包含a或b都行
(site:*.edu 表明我希望从学校官网获取资料,这里的星号就涵盖了可能的学校,当然你也可以手动指定,例如site:stanford.edu)
- inurl:forum (“buy bitcoin” OR “buy BTC”) after:2011 before:2014
“after: before:”: 搜索某个时间段内的信息,比如我希望看看当时人们讨论"buy bitcoin"或是"purchase bitcoin"的论坛,就可以这么搜。
(但存在一些技术性偏差,如:它基于网页的“抓取时间”而非“发表时间“,倘若一个2011年的文章Google在2015年才收录,它就不会出现在结果中。或者一个网页如果在2016年又更新了一次内容或侧边栏,那么可能会被Google标记为"2016年内容")
当然,可用的搜索符号不止这些,这里列举了常用的几个,可以按照如下的分类规则分类:
•关键词结构类: 如"", *, OR, - 等
•目标范围类: site:, inurl:, filetype: 等
•时间维度: after: , before: 等
而且你会注意到,它们相互之间也可以碰撞出一些火花,正如上述的7个例子,恰当的组合可以帮你锁定所需的内容。至于还可以怎么用,now it’s your turn.
思维方法
在我最初接触到这些内容的时候,我大为震惊,感觉自己错过了一整个世界,但是仔细想想,突然发现这实在是再合理不过了,连一个小型的购物平台都有对商品的各种分类,作为世界上访问量最大的网站,又怎么会没有一些”分类方法“呢,它是如此显然,而我却忽略了这么久。
除了学习到一些技巧,更重要的是我们可以从中窥见一些“搜索信息”的思维方法,让我们头脑风暴一下,假如我们是创建Google的人,我们要怎么设计搜索逻辑,才能让用户得到它们想要的东西呢?反过来,作为用户,为了得到我们真正想要的内容,我们在上手之前,应该考虑哪些因素呢?
我总结了一下五点,叫它POISE模型貌似不错:
-
Predict(预测):搜索前的预判(信息在哪、形式如何、关键词、限制项)
-
Observe(观察):初步撒网后的观察(谁发布了?在哪?出现频率?注意观察信息的分布)
-
Iterate(迭代):调整关键词、结构、限定条件,逐步逼近目标
-
Sift(筛选):主动剔除无关内容,设定否定条件(-xxx、避坑)
-
Extract(提炼):总结可复用的搜索路径/策略,转化为知识结构
单说还是不够,恰好这里有一个练习题,不妨上手试试:
你是一个 Windows 用户,最近发现在打开大文件(比如 PDF 或 Excel)时,电脑风扇狂转、系统变卡,任务管理器里显示 Antimalware Service Executable 占用了大量 CPU,但你又不确定这个进程到底是不是病毒。
你想了解以下几个方面:
•这个进程到底是什么?
•是否正常?
•如果想要关闭或优化它,有什么方法?
•最好是来自权威或技术性比较靠谱的网站(比如微软社区、技术论坛、知名 IT 媒体)
•避免落入一些 SEO 操作重的网站(例如 clickbait 的“Top 10 ways to…”)
这道题没有标准答案,重要的是感受搜索策略在这个过程中的起到的作用。
示例:“Antimalware Service Executable” high CPU site:(microsoft.com OR tenforums.com OR howtogeek.com OR superuser.com) -site:quora.com -site:pinterest.com
结语
虽然介绍了这些搜索技巧,但我们需要意识到,这些技巧本身,毕竟只是帮助我们锁定目标的工具,有时我们可能会本末倒置,为了使用这些技巧而使用。比如,在一条普通搜索请求中强行加 filetype:pdf 可能反而漏掉了有价值的网页。
不要让工具绑架了目的。高级语法是为了更贴近目标,而不是为了单纯show off.
另一方面,Google和符号们只是工具,而搜索是一种底层能力,培养好了这种能力,不仅仅是在Google时对我们有帮助,还可以在对话AI、逛论坛和生活决策中起到出人意料的作用。观察科学前沿的那些进步,其中不乏有一些领域,正是因为和其他领域的知识发生了碰撞和融合,从而诞生出了新的生命。
写作用时:3h10min
About this Post
This post is written by Nosky, licensed under CC BY-NC 4.0.