編程學習網 > IT圈內 > 為什么Tech公司最常見的面試題通過率卻最低??
2023
05-12

為什么Tech公司最常見的面試題通過率卻最低??


所周知,A/B測試是一項熱門技能,有不少數據科學相關崗位的面試題目都與之相關。但與此同時,有助于準備A/B測試相關面試題目的資源卻很少,從而導致大多數候選人在這些面試中表現不佳。事實上,A/B測試實驗領域一直在發展,每年都有越來越多關于A/B測試的新的概念和方法。這就意味著即便是幾年前自詡A/B測試經驗豐富的候選人,如今也經常會在面試中被難住。在這篇文章中,我們將模擬面試官和候選人的對話來進行A/B測試相關的模擬面試,幫助你了解面試官要的是什么,以及如何順利通過這些面試。你可能會問,為什么我們需要模擬面試?原因是,作為數據科學崗位,我們有時會在溝通方面遇到困難。因此,在腦海中記住一個有效的溝通模板會對你有很大幫助。在本文中,我們將使用食品配送公司Doordash的面試案例進行講解,該公司的手機App目前在iPhone App Store 中排名第一。他們通過實驗不斷改進他們的App,并且也在不斷尋找有A/B測試相關技能的候選人。

面試題Doordash目前正在擴展更多業務,例如便利店跑腿送貨。由于他們之前的推送通知策略效果很成功,于是他們正在考慮在應用內部發送通知來推廣這個新業務。那么,你將如何設計實驗以決定他們是否應該在應用內部發送通知呢?
解決方案第一步 — 提出明確的問題以更好地理解業務目標和產品功能細節在這一步,面試官希望看到什么——
  • 在深入研究實驗細節之前,你是否首先明確了產品/業務目標?

以下是模擬對話部分:
候選人:在開始設計實驗之前,我想確保我對產品背景的理解是清楚的。像這樣的產品可能有多個目標——例如增加新用戶獲取、增加用戶的轉化率、增加該類別中的訂單數量或增加總訂單價值。請問我應該具體針對哪個目標進行實驗呢?
面試官:這個問題問得很好。通過應用內部通知,我們主要是想嘗試提高用戶的轉化率——即在所有登錄的用戶中,在新的業務類別下訂單的用戶的百分比。
候選人:好的。除此以外,我還想了解更多關于推送通知的信息——推送通知的內容是什么,以及目標受眾是誰?
面試官:我們目前不提供任何折扣優惠,推送通知只是為了讓用戶知道我們推出了新的服務業務。如果實驗證明這樣做的確有效的話,我們打算向所有用戶推送通知。候選人:好的,謝謝你的補充,下一步我可以開始深入研究實驗細節了。
第二步 — 陳述商業假設、零假設,定義要評估的指標面試官想看到什么——
  • 除了主要指標之外,你還考慮了次要指標和護欄指標。

候選人:所以我們的商業假設是——我們預計,如果我們發送應用內部通知,那么新業務的每日訂單數量將會增加。因此,我們的原假設 (H0) 是——用戶轉換率不會因為應用內部推送而產生變化。我們希望在實驗中包含不同的指標,因為發推送的目標是提高新業務的用戶轉化率,所以這將是我們的主要指標;在次要指標方面,我們還應該觀察該業務的平均訂單價,看看有什么影響。用戶轉化率提高的同時,平均訂單價格有可能會下降,從而導致整體收入下降,這是我們可能需要注意的事情。除此之外,我們還應該考慮護欄指標,這些指標是我們應該考慮的其他因素,從另一種維度來描述實驗結果從而提供更全面的分析,例如應用使用時間或應用程序卸載的次數。您覺得在這個實驗里,還有哪些我們應該包含的指標呢?面試官:你選擇的主要指標非常好,不過對于這個案例,你可以忽略次要指標。但你在護欄指標方面是正確的:Doordash在推出新功能或者新版本時非常謹慎,因為我們知道安裝應用程序的用戶LTV(生命周期總價值)要高得多。所以在推出新功能時我們確實需要小心,以免促使用戶卸載應用程序。候選人:好的,那我們則需要把卸載百分比作為我們的護欄指標。
第三步 — 選擇顯著性水平(significance level)、統計功效(statistical power)、MDE (最小預期提升幅度)并計算實驗所需的樣本量和持續時間面試官想看到什么——
  • 你對統計概念的了解以及對樣本量和持續時間的計算;

  • 你是否在進行實驗時考慮了網絡效應(在 Doordash、Uber、Lyft、Airbnb 等雙邊市場或 Facebook、LinkedIn 等社交網絡中很常見)、星期幾效應、季節性或新奇效應等可能會影響實驗的有效性。

候選人:那么現在我開始設計實驗。我們首先看看我們是否需要考慮網絡效應。當控制組的行為受到我們對測試組處理的影響時,網絡效應就會發生。由于 Doordash 是一個雙面市場,因此更容易看到網絡效應。在這種特定情況下,如果對實驗增加了測試組的需求,可能會導致外賣員數量供應不足的情況,從而導致整體配送效率下降,這反過來又會影響對照組的表現。為了考慮網絡效應,我們需要選擇一些隨機因素。有很多方法可以做到這一點:我們可以進行基于地理的隨機化、或基于時間的隨機化、或網絡用戶群體群隨機化。面試官:網絡效應的確很關鍵,因為它確實是我們在 Doordash 的實驗中會仔細考慮的因素。但由于時間有限,讓我們假設這里沒有網絡效應,然后繼續設計實驗吧。候選人:好的,如果我們不考慮網絡效應,那么實驗的隨機因素就是用戶,我們將隨機選擇用戶并將他們分配給測試和控制組。測試組將收到內部推送,而控制組將不會收到任何推送。接下來,我想計算該實驗的樣本量和持續時間。為此,我需要準備這些信息:
  • Baseline conversion(基線轉換):這是在進行實驗之前,控制組的現有用戶轉換率

  • Minimum detectable difference(最小可檢測差異)或 MDE:這是我們實驗時可以接受的轉化率的最小變化,比這更小的變化我們可以忽略不計

  • Statistical Power(統計功效):我們有多大概率可以拒絕原假設

  • Significance Level(顯著性水平):當原假設為正確時拒絕原假設的概率

我們通常默認選擇 5% 的顯著性水平和 80% 的統計功效,除非有特殊要求。此外,我將假設對照和測試組的比例為一半一半。一旦確認這些信息后,我將使用功效分析來計算樣本量。為此我會使用編程語言,例如在 R 中,有一個名為“pwr”的包可用于實現此目的。面試官:好的,假設根據分析,我們得到每組的樣本量為10,000名用戶,你將如何計算實驗的持續時間?候選人:為此我們需要知道每天登錄該應用的用戶數量。面試官:假設我們每天有 10,000 名用戶登錄該應用程序。候選人:好的,那在這種情況下,我們至少需要兩天的時間來運行實驗,我是通過將控制和測試組的總樣本量除以每日用戶數得出的(10,000*2/10,000)但是,在最終確定持續時間時,我們還應考慮其他因素:
  • Day of week effect(星期幾的影響)——你可能在周末和工作日有不同的用戶群體,因此運行足夠長的時間來捕捉每周的周期是很重要的。

  • Seasonality(季節性)——有時用戶的行為會有所不同,這是需要考慮的重要因素,例如假期。

  • Novelty effect(新奇效應)——當你引入一個新功能,尤其是一個容易被注意到的功能時,它最初會吸引用戶去嘗試。這意味著,一個測試組一開始可能看起來表現不錯,但效果會隨著時間的推移而迅速下降。

  • External effects(外部影響)——假設市場競爭很大,同類應用的推送通知很多,消費者很有可能會忽略掉我們的推送,這將直接影響我們實驗的準確性。

基于上述原因,我建議實驗至少進行一周。面試官:好的,那你會如何分析實驗結果呢?
第四步 — 分析結果并得出有效結論面試官想看到什么——
  • 你在不同場景中會使用適當的統計檢驗的知識(例如,針對樣本均值的t檢驗和針對樣本比例的 z 檢驗)

  • 你是否檢查了隨機化

  • 你提供的最終建議

候選人:我的分析有兩個關鍵部分——
  • 為了使實踐的效果最佳,我們應該在分配測試組和對照組時檢查隨機化是否合理。為此,我們可以查看一些預計不會受到實驗影響的基線指標,并對兩組進行比較,比如,比較兩組之間基線指標的直方圖或密度曲線。如果沒有差異,我們可以得出結論,隨機化是合理的。


  • 所有指標(包括主要指標和護欄指標)的顯著性測試。我們的主要指標(轉化率)和護欄指標(卸載率)都是比例,因此我們可以使用 z 測試來檢驗統計顯著性,我們可以使用諸如 R 或 Python 之類的編程語言來做到這一點。

如果從統計角度來講,轉化率顯著增加,并且卸載率沒有受到負面影響,我建議實施內部推送。
如果從統計角度來講,轉化率顯著增加,但是卸載率受到負面影響,我建議不要實施內部推送。最后,如果從統計角度來講,轉化率沒有顯著提高,我建議不要實施內部推送。
面試官:非常好,感謝你的回答。

結論

如果在A/B測試面試中表現出色的話,將為你在招聘過程中提供非常大的優勢,使你脫穎而出,因此,花時間學習A/B測試中的關鍵概念,并且為面試做好準備是非常重要的。

以上就是為什么Tech公司最常見的面試題通過率卻最低?”的詳細內容,想要了解更多IT圈內資訊歡迎持續關注編程學習網。

掃碼二維碼 獲取免費視頻學習資料

Python編程學習

查 看2022高級編程視頻教程免費獲取