最近这几天,在试用 @Fenng 的新产品ReadHub(readhub.me),我个人看起来ReadHub要解决的问题比较类似于Techmeme,是一个内容的快速过滤器。Techmeme是个老古董了,从当年Web2.0热潮算起已经十年过去了,一直不算太火,但在小圈子里口碑很好,有不少大佬级的忠实读者,比如扎克伯格[1]。我估计应该有不少年轻读者没听说过Techmeme的,但我和Fenng这个年纪的,肯定都对这个事情太熟悉了,当年国外的google reader share、digg、techmeme、reddit,国内的抓虾、鲜果、无觅、豆瓣九点、玩聚,等等一大票产品,前仆后继地都在试图解决类似的信息过滤的问题。尤其是当年国内博客圈关于这类产品的blog讨论,很令人怀念的一段时光。后来差不多从11年开始,国外是reddit一骑绝尘,国内是今日头条一统江湖。我早年也是干这个的,但我不想再提了,全是泪。
ReadHub有个重要的基础功能,就是合并意思差不多的内容,类似ReadHub下图这样的。

早年这些事情我都干过,所以就突然想看看类似的事情在深度学习下有没有什么新解法。搜索了一下,发现了Quora的一篇文章,“Semantic Question Matching with Deep Learning”[2],Quora现在已经不仅仅是停留在文本相似度量上了,而是要把“意图”相似的问题都识别出来,比如,“What are the best ways to lose weight?”、“How can a person reduce weight?”、“What are effective weight loss plans?” 这三个问题,都是关于“如何有效减肥”的,Quora认为这三个属于意图重复的问题,应该合并。Quora公布了一个数据集[3],包含400,000个“问题对”,并且标注好了是否重复,如下图。

所有人都可以下载这份儿数据集,训练个模型试着解一解这个问题。感兴趣的同学建议仔细读一下这篇文章。另外,Quora的机器学习平台及内容质量团队的Leader,Nikhil Garg,在QCon2016上也给出了这个问题更详细的一些资料。
1、关于这个问题相关的最新研究进展。

2、Quora自己的方案划重点。

Quora很看重这个事情,认为重复问题会造成下面这些不好的影响,
回答问题的“效能”被分散了。本来可以在一处集中讨论,会被重复问题分散到各处。
用户不得不做付出额外的代价,搜索并查看大量的问答页面。
近似的问答内容在用户Feed里面反复出现,体验很差。
无法提供一个统一的“最佳答案”页面给用户。不光用户体验不好,对搜索引擎排名也非常不利。
Nikhil Garg的PPT[4]还有很多料。
Duplicate Question Detection
Answer Ranking
Topic Expertise Detection
Moderation
结合ResysChina之前的文章“Quora是如何做推荐的?”一起看,效果更佳!
参考资料:

原文来自:ResysChina
声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com
Nano Banana(gemini-2.5-flash-image 和 gemini-3-pro-image-preview图像模型)是图像生成与编辑的最佳选择,可集成 Nano Banana API,实现高速预览。
支持通过自然语言文本智能生成高质量短视频。用户只需输入一段描述性文字,即可自动合成画面连贯、风格鲜明、配乐匹配的定制化视频内容。适用于短视频创作、广告预演、社交内容生成、游戏素材制作等场景,为开发者与创作者提供高效、灵活、富有想象力的视频生产新范式。
先进的图像理解和分析能力,它能够快速准确地解析和理解图像内容。无论是自然风景、城市建筑还是复杂的场景与活动,都能提供详细的描述和深入的分析。
根据文本提示(prompt)和图片公网访问链接,编辑原图按照特定风格、场景和氛围感的输出新的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。
根据文本提示(prompt),生成生成具有特定风格、场景和氛围感的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。