ห้ากรอบที่ดีที่สุดสำหรับนักวิทยาศาสตร์ข้อมูล

มีเครื่องมือมากมายที่สามารถช่วยคุณได้เมื่อคุณเริ่มงานด้านวิทยาศาสตร์ข้อมูล เครื่องมือเหล่านี้บางส่วนที่คุณจะใช้ในเกือบทุกโครงการใหม่ ในบทความนี้เราขอเสนอเครื่องมือและเทคโนโลยีห้าอย่างที่จะช่วยให้คุณซึมซับในโลกวิทยาศาสตร์ข้อมูลและจะเป็นประโยชน์สำหรับการเรียนรู้ของเครื่องหรือปัญหาข้อมูลขนาดใหญ่

Scikit เรียนรู้

Scikit-learn เป็นห้องสมุดเรียนรู้อัลกอริธึมที่ได้รับความนิยมและมีเอกสารที่ดีมากโดยมีเป้าหมายในการมอบชุดอัลกอริทึมทั่วไปให้กับผู้ใช้ Python ผ่านอินเตอร์เฟสที่สอดคล้องกัน กลายเป็นกรอบสู่การเรียนรู้ของเครื่องอย่างรวดเร็วเนื่องจากมีการพัฒนาอย่างต่อเนื่องกับรุ่นใหม่การปรับปรุงประสิทธิภาพของความเร็วและหน่วยความจำและความสามารถด้านข้อมูลขนาดใหญ่ แม้ว่าโดยทั่วไป scikit-learning จะใช้สำหรับข้อมูลขนาดเล็ก แต่ก็มีชุดของอัลกอริธึมที่เหมาะสมสำหรับการจัดหมวดหมู่นอกหลักการถดถอยการจัดกลุ่มและการย่อยสลาย

เมื่อวันที่ตุลาคม 2561 เงินเดือนเฉลี่ยที่คาดว่าจะอยู่ที่เกือบ 140,000 ดอลลาร์ต่อปีโดยมีชื่อที่สำคัญเช่นอเมซอนไอบีเอ็มและอื่น ๆ ที่กำลังมองหานักวิทยาศาสตร์ด้านข้อมูลที่มีความเชี่ยวชาญ

นุ่น

Pandas เป็นแพคเกจ Python ที่ออกแบบมาเพื่อทำงานกับข้อมูลที่“ ติดป้ายกำกับ” และ“ สัมพันธ์” ได้ง่ายและเข้าใจง่าย Pandas เป็นเครื่องมือที่สมบูรณ์แบบสำหรับการถกข้อมูลที่ออกแบบมาเพื่อการจัดการข้อมูลการรวมและการสร้างภาพที่ง่ายและรวดเร็ว วิธีคิดง่ายๆของ Pandas คือเพียงมองว่าเป็น Microsoft Excel เวอร์ชัน Python

นุ่นมีความสามารถในการวิเคราะห์ข้อมูลทางการเงินสถิติสังคมศาสตร์และวิศวกรรม Pandas ทำงานได้ดีกับข้อมูลที่ไม่สมบูรณ์ยุ่งและไม่มีชื่อ (เช่นประเภทของข้อมูลที่คุณอาจพบในโลกแห่งความเป็นจริง) และมีเครื่องมือสำหรับการสร้างการผสานการปรับขนาดและการแบ่งชุดข้อมูล นักวิเคราะห์และงานผู้เชี่ยวชาญของ Python หลายคนมองหาคนที่มีความรอบรู้ใน Pandas

TensorFlow

พัฒนาโดย Google เมื่อไม่กี่ปีที่ผ่านมา TensorFlow เป็นห้องสมุดซอฟต์แวร์โอเพ่นซอร์สสำหรับการคำนวณเชิงตัวเลขโดยใช้กราฟการไหลของข้อมูล โหนดในกราฟแสดงถึงการดำเนินการทางคณิตศาสตร์ในขณะที่ขอบกราฟแสดงถึงอาร์เรย์ข้อมูลหลายมิติ (เทนเซอร์) ที่สื่อสารระหว่างกัน

TensorFlow เป็นหนึ่งในเฟรมเวิร์กการเรียนรู้เชิงลึกที่ดีที่สุดและได้รับการรับรองจากยักษ์ใหญ่หลายแห่งเช่น Airbus, Twitter, IBM และอื่น ๆ ส่วนใหญ่เนื่องจากสถาปัตยกรรมระบบโมดูลาร์มีความยืดหยุ่นสูง แน่นอนว่าเมื่อพิจารณาถึงการพัฒนาที่ Google วิศวกรจะมีการอัปเดตอยู่ตลอดเวลาและเพิ่มคุณสมบัติเพิ่มเติม อย่าคาดหวังว่า TensorFlow จะสูญเสียไอน้ำในเร็ว ๆ นี้

Apache Kafka

Apache Kafka เป็นแพลตฟอร์มสตรีมมิ่งแบบโอเพ่นซอร์สที่สามารถจัดการเหตุการณ์หลายล้านล้านต่อวันแบบเรียลไทม์ เริ่มแรกคิดว่าเป็นคิวการส่งข้อความ Kafka ขึ้นอยู่กับนามธรรมของบันทึกการกระทำแบบกระจาย นับตั้งแต่ถูกสร้างและเปิดแหล่งที่มาของ LinkedIn ในปี 2011 คาฟก้าได้พัฒนาอย่างรวดเร็วจากคิวการส่งข้อความไปยังแพลตฟอร์มสตรีมมิ่งเต็มรูปแบบ

Kafka เพิ่มพลังให้กับแบรนด์ชื่อมากมายรวมถึง Netflix, Airbnb, LinkedIn และอื่น ๆ เป็นกรอบงานยอดนิยมเนื่องจากช่วยให้สามารถให้บริการและเข้าถึงข้อมูลจำนวนมากจากแพลตฟอร์มภายในหลายแห่ง คิดว่ามันเป็นกระดูกสันหลังของการแลกเปลี่ยนข้อมูลให้บริการหลายแพลตฟอร์มและกระบวนการที่ใช้ข้อมูลประเภทต่างๆ

สมุดบันทึก Jupyter

สมุดบันทึก Jupyter เป็นเครื่องมือที่ทรงพลังอย่างไม่น่าเชื่อสำหรับการพัฒนาและนำเสนอโครงการวิทยาศาสตร์ข้อมูลแบบโต้ตอบ สมุดบันทึกจะรวมรหัสและเอาท์พุทของมันไว้ในเอกสารเดียวที่รวมการแสดงภาพประกอบเพลงข้อความบรรยายสมการทางคณิตศาสตร์และสื่อสมบูรณ์อื่น ๆ เวิร์กโฟลว์ที่ใช้งานง่ายช่วยส่งเสริมการพัฒนาซ้ำและอย่างรวดเร็วทำให้โน้ตบุ๊คเป็นตัวเลือกที่ได้รับความนิยมมากขึ้นในหัวใจของวิทยาศาสตร์ข้อมูลปัจจุบันการวิเคราะห์และวิทยาศาสตร์ที่มีขนาดใหญ่ขึ้น

โครงการ Jupyter ได้ประโยชน์จากชุมชนขนาดใหญ่ของผู้มีส่วนร่วมการร่วมมือกับหลาย บริษัท (Rackspace, Microsoft, Analytics ต่อเนื่อง, Google, Github) และมหาวิทยาลัย (UC Berkeley, George Washington University, NYU) ชื่อใหญ่เหล่านี้ช่วยให้มั่นใจว่า Jupyter นั้นอยู่ตลอดเวลา การเจริญเติบโต

โบนัส: SQL

เราไม่ควรพูดถึงภาษาฐานข้อมูลที่ใช้กันอย่างแพร่หลายมากที่สุดในโลก SQL เป็นภาษามาตรฐานสำหรับระบบการจัดการฐานข้อมูลเชิงสัมพันธ์ คำสั่ง SQL ใช้เพื่อทำงานต่าง ๆ เช่นอัพเดทข้อมูลบนฐานข้อมูลหรือดึงข้อมูลจากฐานข้อมูล

เมื่อวันที่ตุลาคม 2561 มีมากกว่า 100,000 งานหาคนที่รู้จัก sql ช่วงนี้ตั้งแต่นักพัฒนา SQL ไปจนถึงผู้เชี่ยวชาญด้านการตลาดการวิเคราะห์มีความสำคัญไม่ว่าอุตสาหกรรมหรือบทบาทจะเป็นอย่างไร ในขณะที่ บริษัท กำลังมองหานักวิทยาศาสตร์ด้านข้อมูลมากขึ้นเรื่อย ๆ ทุกวันตัวเลขนี้จะเพิ่มขึ้นอย่างทวีคูณ

ข้อสรุป

เวลาของคุณเป็นทรัพยากรที่มี จำกัด ในโพสต์นี้เราพูดถึงเครื่องมือและเทคโนโลยีที่มีประโยชน์หกอย่างที่เราหวังว่าจะเป็นประโยชน์สำหรับคุณที่จะรู้ Scikit-learning และ pandas เป็น python library ที่ยอดเยี่ยมสำหรับการเรียนรู้ของเครื่อง กรอบ TensorFlow จะแนะนำให้คุณรู้จักกับการคำนวณกราฟและจะช่วยให้คุณเรียนรู้และใช้งานเครือข่ายประสาทโดยใช้ห้องสมุดนี้ Apache Kafka จะเป็นประโยชน์สำหรับปัญหาด้านวิศวกรรมข้อมูล สมุดบันทึก Jupyter จะช่วยให้คุณทดสอบและโต้ตอบกับรหัสของคุณในขณะที่พัฒนาแบบจำลองการเรียนรู้ของเครื่อง และการเรียนรู้รหัส SQL เป็นวิธีที่ยอดเยี่ยมสำหรับคุณในการรวมและค้นหาข้อมูลที่มีโครงสร้างที่คุณใช้

- - - - - - - - - - - - - - - - -

อ่านบทความวิทยาศาสตร์ข้อมูลเพิ่มเติมเกี่ยวกับ OpenDataScience.com รวมถึงบทแนะนำและคู่มือจากระดับเริ่มต้นถึงระดับสูง! สมัครรับจดหมายข่าวรายสัปดาห์ของเราที่นี่และรับข่าวล่าสุดทุกวันพฤหัสบดี