การประเมินระบบผู้แนะนำ: การเลือกระบบที่ดีที่สุดสำหรับธุรกิจของคุณ

เมื่อรวมกับการขยายตัวของ E-commerce และสื่อออนไลน์อย่างไม่หยุดยั้งในช่วงหลายปีที่ผ่านมามีผู้แนะนำ Software-as-a-Service (SaaS) ระบบผู้แนะนำ ซึ่งแตกต่างจาก 5 ปีที่ผ่านมาเมื่อใช้ RS เป็นสิทธิ์พิเศษของ บริษัท ขนาดใหญ่ที่สร้าง RS ใน บริษัท ของตัวเองโดยใช้งบประมาณมหาศาลในทีมนักวิทยาศาสตร์ข้อมูลความนิยมของโซลูชั่น SaaS ในปัจจุบันทำให้สามารถใช้คำแนะนำได้แม้ในขนาดกลางและเล็ก บริษัท ขนาดเล็ก คำถามที่ CTO ของ บริษัท ดังกล่าวกำลังเผชิญเมื่อมองหา SaaS RS ที่ถูกต้องคือ: วิธีใดดีที่สุด? สมมติว่าคุณยังไม่มีอาร์เอสหรือคุณไม่พอใจกับอาร์เอสปัจจุบันของคุณคุณควรเลือกโซลูชันใด

ในบทความนี้ฉันจะครอบคลุมสองวิธี:

  • การประเมินแบบออฟไลน์ในโลกวิชาการ (รวมถึงรางวัล Netflix) ค้นหาข้อผิดพลาดในการคาดการณ์ต่ำ (RMSE / MAE) และครอบคลุมการเรียกคืน / แคตตาล็อกสูง TLDR; เพิ่งรู้ว่ามีมาตรการเหล่านี้อยู่และคุณอาจไม่ต้องการใช้มาตรการเหล่านี้ แต่ฉันยังคงให้บทสรุปสั้น ๆ ของพวกเขาในกรณีที่คุณสนใจ
  • การประเมินผลแบบออนไลน์ในโลกธุรกิจค้นหาค่าอายุการใช้งานของลูกค้าที่สูง (CLV) ผ่านการทดสอบ A / B, CTR, CR, ROI และ QA คุณควรอ่านหัวข้อนี้หากคุณกำลังพิจารณาข้อเสนอแนะอย่างจริงจังเพื่อส่งเสริมธุรกิจของคุณ

โลกออฟไลน์ = นักวิชาการทำมันได้อย่างไร?

RSs ได้รับการตรวจสอบมานานหลายทศวรรษในการวิจัยทางวิชาการ มีงานวิจัยมากมายที่แนะนำอัลกอริธึมที่แตกต่างกันและเพื่อให้อัลกอริธึมเทียบเคียงได้พวกเขาใช้มาตรการทางวิชาการ เราเรียกมาตรการเหล่านี้ว่ามาตรการออฟไลน์ คุณไม่ได้ใส่อะไรลงไปในการผลิตคุณเพียงแค่เล่นกับอัลกอริธึมในแซนด์บ็อกซ์ของคุณและปรับแต่งมันตามมาตรการเหล่านี้ ฉันทำการวิจัยมาตรการเหล่านี้เป็นการส่วนตัวมาก แต่จากมุมมองของฉันในวันนี้พวกเขาค่อนข้างก่อนประวัติศาสตร์ แต่ถึงแม้จะอยู่ในยุคกลางของปี 2549 ในรางวัล Netflix ที่มีชื่อเสียงการวัดทางวิชาการล้วน ๆ ที่เรียกว่า RMSE (ข้อผิดพลาดรูตเฉลี่ยกำลังสอง) ถูกนำมาใช้

เพียงเพื่ออธิบายสั้น ๆ ว่ามันทำงานอย่างไรมันจะบอกผู้ใช้ของคุณให้คะแนนผลิตภัณฑ์ของคุณอย่างชัดเจนด้วยจำนวนดาว (1 = ไม่ชอบที่แข็งแกร่ง, 5 = ชอบมาก) และคุณมีการจัดอันดับดังกล่าว (บันทึกบอกว่าผู้ใช้รายการคะแนน X กับดาว Y) จากอดีต เทคนิคที่ใช้การตรวจสอบความถูกต้องแบบแยกส่วน: คุณใช้ชุดย่อยของการจัดอันดับเหล่านี้พูด 80% (เรียกว่าชุดรถไฟ) สร้างอาร์เอสบนพวกเขาแล้วขอให้อาร์เอสคาดการณ์การจัดอันดับ 20% ที่คุณได้รับ ซ่อนอยู่ (ชุดทดสอบ) และอาจเป็นไปได้ว่าผู้ใช้ทดสอบให้คะแนนบางรายการด้วย 4 ดาว แต่รุ่นของคุณคาดการณ์ 3.5 ดังนั้นจึงมีข้อผิดพลาด 0.5 จากการจัดอันดับนั้นและนั่นมาจาก RMSE จากนั้นคุณเพียงแค่คำนวณค่าเฉลี่ยของข้อผิดพลาดจากชุดทดสอบทั้งหมดโดยใช้สูตรและได้ผลลัพธ์สุดท้ายที่ 0.71623 บิงโก! นั่นเป็นวิธีที่ดี (หรือมากกว่านั้นไม่ดี) RS ของคุณ หรือคุณอาจใช้สูตรที่แตกต่างกันและรับแม่ (หมายถึงข้อผิดพลาดสัมบูรณ์) ซึ่งไม่ลงโทษข้อผิดพลาดมาก (จริง 4 ดาวทำนาย 1 ดาว) มากดังนั้นคุณอาจได้รับ 0.6134 เท่านั้น

หนึ่งข้อเสียเปรียบเล็กน้อยที่นี่คือข้อมูลดังกล่าวเกือบจะไม่มีอยู่ในโลกแห่งความเป็นจริงหรืออย่างน้อยก็มีน้อยเกินไป

ผู้ใช้ขี้เกียจเกินไปและพวกเขาจะไม่ให้คะแนนอะไรเลย พวกเขาเพียงเปิดหน้าเว็บและหากพวกเขาชอบสิ่งที่พวกเขาเห็นพวกเขาอาจซื้อ / บริโภคมัน ถ้ามันแย่พวกเขาก็จะออกไปให้เร็วที่สุด และดังนั้นคุณจะมีการให้คะแนนโดยนัยในบันทึกการใช้เว็บเซิร์ฟเวอร์หรือฐานข้อมูลการซื้อและคุณไม่สามารถวัดข้อผิดพลาดจำนวนดาวได้เนื่องจากไม่มีดาว คุณมี +1 = ผู้ใช้ดูรายละเอียดหรือซื้อผลิตภัณฑ์เท่านั้นและโดยทั่วไปจะไม่มีอะไรอื่น บางครั้งสิ่งเหล่านี้เรียกว่าการจัดอันดับที่ไม่น่าสนใจซึ่งคุณรู้จากปุ่ม“ ถูกใจ” ​​ของ Facebook: การให้คะแนนเป็นบวกหรือไม่ทราบ (ผู้ใช้อาจไม่ทราบว่ามีเนื้อหาอยู่)

คุณยังสามารถใช้การตรวจสอบความถูกต้องแยกส่วนของข้อมูลดังกล่าวได้แม้จะเป็นการเปรียบเทียบแบบออฟไลน์ของคุณเองกับผู้แนะนำ SaaS สมมติว่าคุณใช้ฐานข้อมูลการซื้อของคุณส่งประวัติผู้ใช้ 80% ไปยัง RS จากนั้นสำหรับผู้ใช้ทดสอบแต่ละรายส่งการซื้อเพียงเล็กน้อยและขอให้ RS คาดการณ์ส่วนที่เหลือ คุณอาจซ่อนรายการที่ซื้อไว้ 4 รายการและขอ RS จำนวน 10 รายการ คุณอาจได้รับความแม่นยำ 0%, 25%, 50%, 75% หรือ 100% สำหรับผู้ใช้นั้นทั้งนี้ขึ้นอยู่กับจำนวนที่ซ่อนอยู่ 4 ปรากฏในคำแนะนำ 10 และความแม่นยำนี้เรียกว่าการเรียกคืน คุณอาจเฉลี่ยมันมากกว่าชุดทดสอบทั้งหมดและ TADAAA! ผลที่คุณได้คือ 31.4159% นั่นคือค่า RS ของคุณที่ดีแค่ไหน

ตอนนี้อย่างตรงไปตรงมาแม้ว่า Recall จะมีสติมากกว่า RMSE มาก แต่ก็ยังนำความเจ็บปวดมาให้ได้มากมาย สมมติว่าผู้ใช้ทดสอบดูซีรีส์ทีวีเดียวกัน 20 ตอนและคุณวัดความจำของเธอได้ ดังนั้นคุณซ่อนตอน # 18–20 และขอให้ RS ทำนายมันจาก # 1–17 มันค่อนข้างง่ายเนื่องจากมีการเชื่อมต่อตอนต่าง ๆ อย่างมากดังนั้นคุณจะได้รับการเรียกคืน 100% ตอนนี้ผู้ใช้ของคุณค้นพบสิ่งใหม่หรือไม่ คุณต้องการที่จะแนะนำเนื้อหาดังกล่าวกับเธอหรือไม่? และอะไรที่นำมูลค่าทางธุรกิจสูงสุดมาสู่คุณ พูดในร้านค้าออนไลน์คุณต้องการแนะนำทางเลือกหรืออุปกรณ์เสริมหรือไม่? คุณควรรู้สึกว่าคุณกำลังอยู่บนน้ำแข็งที่บางเฉียบพร้อมการเรียกคืน

และอีกความลับหนึ่งที่ฉันจะบอกคุณ: ในบางกรณี (ไม่เสมอไปขึ้นอยู่กับธุรกิจของคุณ!) มันเป็นกลยุทธ์ที่ยุติธรรมที่จะแนะนำเฉพาะรายการยอดนิยมระดับโลก (a.k.a. เบสต์เซลเลอร์) เพื่อให้ได้การเรียกคืนที่สมเหตุสมผล ดังนั้นที่นี่ครอบคลุมแคตตาล็อกมา คุณต้องการให้ผู้ใช้ค้นพบเนื้อหาใหม่และใหม่อยู่เสมอ จากนั้นคุณอาจต้องการแนะนำรายการต่าง ๆ ให้มากที่สุด ในกรณีที่ง่ายที่สุดในการคำนวณแคตตาล็อกครอบคลุมเพียงนำผู้ใช้ทดสอบของคุณขอคำแนะนำสำหรับแต่ละรายการและนำรายการที่แนะนำทั้งหมดเข้าด้วยกัน คุณได้รับรายการต่าง ๆ ชุดใหญ่ แบ่งขนาดของชุดนี้ด้วยจำนวนรายการทั้งหมดในแคตตาล็อกของคุณและคุณจะได้รับ ... 42.125%! นั่นคือส่วนของรายการที่ RS ของคุณสามารถแนะนำได้

พิจารณาโมเดลที่ขายดีที่สุด อาจมีการเรียกคืนที่ดี แต่ครอบคลุมเกือบเป็นศูนย์ (5 รายการค่าคงที่?) และใช้ผู้แนะนำแบบสุ่ม มันมีการเรียกคืนเกือบเป็นศูนย์และความคุ้มครอง 100% คุณอาจรู้สึกว่าคุณชอบการประนีประนอม

ภาพข้างบนมาจากงานวิจัยต้นฉบับของฉัน (ตอนนี้ล้าสมัยมาก) คุณสามารถดูโมเดล RS ที่แตกต่างกันประมาณ 1,000 รุ่นที่ลากมาในระนาบการเรียกคืนความครอบคลุม Geeky ใช่ไหม :) คุณอาจรู้สึกเวียนศีรษะเมื่อเลือกสิ่งที่ดีที่สุด แต่ฉันหวังว่าคุณจะรู้สึกว่าการเลือกบางอย่างจากด้านบนขวา (“ ด้านหน้าที่ดีที่สุดของ Pareto”) อาจเป็นทางเลือกที่ดี

เพื่อให้การประมาณการออฟไลน์ของคุณแข็งแกร่งยิ่งขึ้นคุณสามารถใช้การตรวจสอบข้าม (Xval) แทนการตรวจสอบแยก เพียงแค่แบ่งผู้ใช้ของคุณเป็น 10 เท่าและวนซ้ำ: ใช้ 9 เท่าในการสร้างแบบจำลองเสมอและใช้ 1 เท่าที่เหลือเพื่อทำการตรวจสอบความถูกต้อง หาค่าเฉลี่ยผลการทดสอบทั้ง 10 ครั้ง

ตอนนี้คุณอาจพูดว่า: แล้วธุรกิจของฉันล่ะ การวัดการเรียกคืนและความครอบคลุมอาจใช้ได้ แต่สิ่งเหล่านี้เกี่ยวข้องกับ KPI ของฉันอย่างไร

และคุณพูดถูก ในการใส่ SaaS RS บนแกน X และ $$$ บนแกน Y เราต้องออกจากโลกออฟไลน์และไปสู่การผลิต!

โลกออนไลน์: ทำตามตัวอย่างของสมาร์ท CTO

ส่วนข้างต้นเกี่ยวกับการวัดคุณภาพของ RS ก่อนนำไปผลิตจริงตอนนี้ได้เวลาพูดคุยเกี่ยวกับตัวชี้วัดทางธุรกิจ

ในขณะที่การประเมินแบบออฟไลน์เรามักจะใช้การตรวจสอบแยกในการประเมินออนไลน์การทดสอบ A / B (หรือการทดสอบหลายตัวแปร) เป็นวิธีการที่โดดเด่นที่สุดของวันนี้ คุณอาจรวมอาร์เอสที่แตกต่างกันไม่กี่แบ่งผู้ใช้ของคุณเป็นกลุ่มและนำ RS เข้าสู่การต่อสู้ ค่าใช้จ่ายค่อนข้างสูงเนื่องจากใช้ทรัพยากรในการพัฒนาของคุณดังนั้นคุณจึงสามารถใช้ความยากลำบากโดยประมาณของการรวมและค่าใช้จ่ายในการปรับแต่ง / การปรับเปลี่ยนในอนาคตเป็นหนึ่งในมาตรการของคุณซึ่งอาจลดความน่าเชื่อถือของผู้สมัคร

ตอนนี้สมมติว่าคุณมีการรวมระบบและสามารถแบ่งผู้ใช้ออนไลน์ของคุณออกเป็นกลุ่มการทดสอบ A / B คุณสามารถใช้คุกกี้ UID ของคุณเองหรือใช้เครื่องมือบางอย่างสำหรับสิ่งนั้น (ตัวอย่างเช่น VWO, Optimizely หรือแม้แต่ GAs แม้ว่าตัวเลือกสุดท้ายจะเจ็บปวดเล็กน้อย) ในการทำการทดสอบคุณควรกำหนดสถานที่ที่ดีบนเว็บไซต์ / แอปพลิเคชันของคุณที่จะทดสอบคำแนะนำเพราะคุณแน่ใจว่าไม่ต้องการรวม RS ของผู้สมัครทั้งหมดในช่วงแรก ๆ ใช่มั้ย หากคุณมีปริมาณการเข้าชมน้อยโปรดทราบว่าสถานที่ที่เลือกต้องปรากฏให้เห็นพอที่จะรวบรวมผลลัพธ์ที่สำคัญ ในกรณีที่ตรงกันข้ามหากคุณมีทราฟฟิกจำนวนมากคุณอาจเลือกกลยุทธ์อนุรักษ์นิยมเช่นปล่อยให้คุณเข้าชมการทดสอบเพียง 20% ทำให้ตัวคุณเองและผู้ใช้ 80% ที่เหลือปลอดภัยในกรณีที่ RS ของผู้สมัครบางคนจะ จะเสียอย่างสมบูรณ์และแนะนำสิ่งแปลก ๆ

สมมติว่าทุกอย่างกำลังดำเนินอยู่ สิ่งที่ต้องวัด มาตรการที่ง่ายที่สุดคืออัตราการคลิกผ่าน (CTR) และอัตราการแปลง (CR) ของคำแนะนำ

แสดงชุดคำแนะนำ N 20 ครั้งที่ผู้ใช้คลิก 3 ครั้งจากรายการที่แนะนำอย่างน้อยหนึ่งรายการ CTR ของคุณคือ 15% แน่นอนว่าการคลิกนั้นดี แต่อาจทำให้ผู้ใช้ไปยังหน้ารายละเอียดและคุณอาจต้องการทราบว่าเกิดอะไรขึ้นต่อไป ผู้ใช้พบว่าเนื้อหาน่าสนใจจริง ๆ หรือไม่? เธอดูวิดีโอทั้งหมดฟังเพลงทั้งหมดอ่านบทความทั้งหมดตอบข้อเสนองานวางผลิตภัณฑ์ลงในรถเข็นแล้วสั่งจริงหรือ นี่คืออัตราการแปลง = จำนวนคำแนะนำที่ทำให้ทั้งคุณและผู้ใช้มีความสุข

ตัวอย่าง: Recombee KPI console

CTR และ CR อาจช่วยให้คุณประเมินประสิทธิภาพผู้แนะนำได้ดี แต่คุณควรระมัดระวังและคำนึงถึงผลิตภัณฑ์ของคุณ คุณอาจใช้พอร์ทัลข่าววางข่าวด่วนในหน้าแรก สิ่งนี้อาจไม่ทำให้ CTR ที่สูงที่สุดเท่าที่จะเป็นไปได้ แต่จะรักษาคุณภาพและความรู้สึกของคุณและผู้ใช้ของคุณเกี่ยวกับบริการของคุณ ตอนนี้คุณอาจวาง RS ที่นั่นและอาจเริ่มแสดงเนื้อหาที่แตกต่างกันเช่นบทความวารสารศาสตร์สีเหลืองหรือบทความตลกเกี่ยวกับ "สุนัขที่วิ่งเร็วมากวิ่งด้วยความเร็วสูงอย่างไม่น่าเชื่อ" นี่อาจเพิ่ม CTR ทันทีของคุณ 5 เท่า แต่จะทำให้ภาพของคุณเสียหายและคุณอาจสูญเสียผู้ใช้ไปในระยะยาว

ที่นี่การประเมินเชิงประจักษ์ของ RSs มา เพียงแค่เริ่มเซสชันใหม่ด้วยคุกกี้ที่ว่างเปล่าจำลองพฤติกรรมของผู้ใช้และตรวจสอบว่าคำแนะนำมีสติ หากคุณมีทีมงานควบคุมคุณภาพให้พาไปทำงาน! การประเมินเชิงประจักษ์นั้นซับซ้อนและง่ายในคราวเดียว มันซับซ้อนเพราะไม่ได้ผลิตตัวเลขใด ๆ ที่คุณสามารถนำเสนอบนกระดานผลิตภัณฑ์ แต่มันก็เป็นเรื่องง่ายเพราะด้วยสัญชาตญาณของมนุษย์คุณจะรู้ได้ว่าคำแนะนำใดดีและไม่ดี หากคุณเลือกผู้แนะนำที่ทำงานผิดปกติคุณจะต้องเผชิญกับปัญหามากมายในอนาคตแม้ว่า CTR / CR จะสูงในขณะนี้

แต่แน่นอนว่านอกจากคุณภาพแล้วคุณควรใส่ใจกับผลตอบแทนจากการลงทุน (ROI)

พูดง่ายๆก็คือคุณอาจพิจารณาว่าการทดสอบ A / B-fold ครั้งที่ 1 นำไปสู่การเพิ่มขึ้นของ X% ในอัตราการแปลงมากกว่าพื้นฐานพับ # 0 (โซลูชันปัจจุบันของคุณ) ว่ามาร์จิ้นของคุณคือ $ Y สำหรับรายการแนะนำเฉลี่ยที่สำเร็จ มันต้องการคำแนะนำ Z เพื่อให้บรรลุเป้าหมายนั้น ทำคณิตศาสตร์คำนวณค่าใช้จ่าย / รายได้ในกรณีที่คุณใส่ RS ที่ได้รับ 100% ของปริมาณการใช้งานของคุณรวมเข้ากับส่วนอื่น ๆ ของเว็บไซต์ / แอพของคุณ

หนึ่งคำเตือนเกี่ยวกับการคำนวณ ROI: มันคลุมเครือมากและขึ้นอยู่กับสิ่งแปลกปลอมจำนวนมาก: CR จะเหมือนกันในที่อื่น ๆ บนเว็บไซต์ / แอพของฉันหรือไม่ (คำตอบง่ายๆ = ไม่ใช่สถานที่ต่าง ๆ จะมี CTR / CR ที่ต่างกัน) CR จะเปลี่ยนไปอย่างไรหากวางคำแนะนำไว้ในตำแหน่งที่น่าดึงดูด (คำตอบง่าย = มาก) CR จะพัฒนาอย่างไรในเวลา? ผู้ใช้จะได้เรียนรู้การใช้และเชื่อถือคำแนะนำหรือ CR จะปฏิเสธหรือไม่

สิ่งนี้นำไปสู่การวัดขั้นสูงสุด แต่ยากที่สุด: มูลค่าอายุการใช้งานของลูกค้า (CLV) คุณกำลังมองหาสถานการณ์ที่ชนะ คุณต้องการให้ผู้ใช้ของคุณชอบบริการของคุณรู้สึกสะดวกสบายมีความสุขและยินดีกลับมา จับคู่กับสิ่งนั้นคุณต้องการให้ RS ปรับปรุง UX ช่วยให้ผู้ใช้ค้นหาเนื้อหา / ผลิตภัณฑ์ที่น่าสนใจตามที่พวกเขาต้องการ วิธีเข้าถึง CLV สูงโดยใช้ RS

ไม่มีคำแนะนำง่ายๆที่นี่ คุณควรค้นหาคำแนะนำที่ดีที่มีคุณภาพเชิงประจักษ์สูงและ ROI ที่ดีพอสมควร จากประสบการณ์ของฉันความดีของคำแนะนำโดยทั่วไปสอดคล้องกับมูลค่าทางธุรกิจจะป้องกันคุณจากการถูกโพสต์โดยการร้องเรียนจากทีมงาน / ซีอีโอ QA ของคุณ และหากคุณสังเกตว่ากรณีธุรกิจเป็นไปในเชิงบวกคุณจะพบสิ่งที่คุณกำลังมองหา :)

ข้อสรุป

ฉันพยายามที่จะครอบคลุมประเด็นที่สำคัญที่สุดของการประเมิน RS คุณอาจเห็นว่าไม่ใช่เรื่องง่ายและมีเรื่องให้พิจารณามากมาย แต่ฉันหวังว่าอย่างน้อยก็ให้เบาะแสบางอย่างแก่คุณเพื่อค้นหาเส้นทางของคุณในพื้นที่ คุณสามารถทดสอบ RS แบบออฟไลน์ก่อนเข้าสู่การผลิตหรือทำการทดสอบ A / B ด้วย CTR / CR และ ROI โดยประมาณ รวม QA บางส่วนเสมอเนื่องจาก CTR / CR / ROI เพียงอย่างเดียวอาจทำให้เข้าใจผิดและไม่รับประกันความเข้ากันได้กับวิสัยทัศน์ของผลิตภัณฑ์ของคุณ

มีการละทิ้งมากเพียงเพื่อให้ข้อความยาวอย่างไม่มีที่สิ้นสุด นอกจากคำแนะนำ CTR / CR / ROI / คุณภาพแล้วคุณควรพิจารณาความสามารถโดยรวมของ RS ที่พิจารณาอย่างรวดเร็ว คุณอาจต้องการรวมคำแนะนำไว้ในแคมเปญการส่งอีเมลของคุณในอนาคต มันจะทำงานอย่างไร มีความสามารถในการหมุนเวียนคำแนะนำหรือไม่เพื่อให้ผู้ใช้ที่ได้รับจะไม่ได้รับคำแนะนำชุดเดียวกันมากในแต่ละอีเมล คุณสามารถตอบสนองความต้องการทางธุรกิจทั้งหมดของคุณส่งผลต่อคำแนะนำเพิ่มเนื้อหาบางประเภทกรองตามเกณฑ์ต่างๆหรือไม่? หัวข้อเหล่านี้ไม่ครอบคลุม แต่คุณอาจรู้สึกว่าต้องการพิจารณาด้วย

ผู้เขียนเป็นผู้ร่วมก่อตั้งใน Recombee ซึ่งเป็น SaaS Recommendation Engine ที่มีความซับซ้อน