Tạp chí Thợ Code

Học & Thi chứng chỉ AWS Certified Data Engineer - Associate (DEA-C01)

画像が読み込まれない場合はページを更新してみてください。

Thông tin

Phù hợp cho các bạn định hướng trong các vai trò liên quan đến dữ liệu như kỹ sư dữ liệu, kiến trúc sư dữ liệu và các vị trí tương tự.

Chuẩn bị

Background sao thì phù hợp

Nội dung kiến thức khá rộng, có thể nói không ngoa thì nó cover toàn bộ các vị trí công việc trong một phòng ban chuyên về dữ liệu như là:

  • Chuyển đổi dữ liệu từ nhiều nguồn, xây dựng pipeline dữ liệu: ETL, ELT.
  • Lựa chọn kho dữ liệu Lake House, Data Lake, Data Warehouse tối ưu, thiết kế các data models, catalog data schemas và quản lý vòng đời của dữ liệu. Lựa chọn các database engine để đáp ứng các nhu cầu thực tế: hiệu năng, tốc độ, loại dữ liệu cần lưu trữ.
  • Vận hành, duy trì và giám sát các pipeline dữ liệu. Phân tích dữ liệu và đảm bảo chất lượng dữ liệu. Xây dựng các dashboard, ứng dụng Gen AI vào kho dữ liệu.
  • Triển khai các phương thức xác thực, ủy quyền, mã hóa dữ liệu, quyền riêng tư… điển hình nhất là làm sao xác định các Personally identifiable information (PII) hay thông tin thẻ tín dụng. Ghi logs và dựa vào logs để xác định các sự cố.

Do đó, tùy vào kinh nghiệm cá nhân mà bạn có thể tự đánh giá và ước lượng thời gian cần để học & thi.

Chọn tài liệu & học

Mình học khóa AWS Certified Data Engineer Associate 2024 - Hands On, nội dung cover khá đầy đủ, xen kẽ trong các nội dung lý thuyết thì luôn có những bài Hands On step by step để bạn có thể làm theo. Nếu có thời gian nữa thì tìm các bài lab theo những chủ đề đã học là quá tuyệt vời nhưng thường thì đây là chuyện quá khó khăn với chúng ta rồi.

Do đó, mình tiếp tục luyện thêm các bộ câu hỏi mẫu: ban đầu vì đủ thứ chuyện oải chè đậu nên mình chọn course AWS Certified Data Engineer Associate Practice Exams DEA-C01 ([NEW 2024] AWS Certified Data Engineer Associate Practice Tests | Exam-Style Practice Questions and Exam Simulation) do mỗi bộ câu hỏi chỉ có 25 questions và làm trong 50 minutes thôi nên nhìn chung thì cũng còn ráng nỗi.

Tuy nhiên, làm gần hết thì mình thấy có vẻ không ổn lắm, vì song song đó cũng có tham khảo trên Examtopics thấy dạng câu hỏi dài hơn, đọc vô cũng phức tạp hơn nhiều với tá lả keyword dẫn dụ chứ không có ngắn gọn đơn giản như course. Examtopics có vài vấn đề nhỏ về tính chính xác của đáp án cũng như lâu lâu mình hay sa đà vào đọc bình luận của cộng đồng nên khá tốn thời gian.

Vậy là mình quay lại course của Idol Stephane Maarek: Practice Exams | AWS Certified Data Engineer - Associate (Prepare for your DEA-C01 exam. 260 high-quality practice test questions written from scratch with detailed explanations!). Đúng khác hẳn, câu nào câu nấy dài y như thật và một lần làm là 65 questions trong 2 hours 10 minutes y như thật luôn, và lúc mình thi cũng có 2 câu vô tình một cách ngẫu nhiên giống :D

Học trên Udemy có phần Q&A thấy cũng hay, không biết mục tiêu thế nào, nhưng mà mình hỏi thử, 4-5 ngày sau chưa có ai trả lời nên thôi mình quyết chí đi thi đại luôn, dù sao học tài thi phận mà.

Ah quên, tiết lộ với mấy bạn là hầu như lần đầu làm mấy cái Practice tui đều rớt đứ đừ hết trơn, khá là hoang mang. Phần tốn thời gian nhiều không kém việc học ban đầu là ngồi review lại tại sao sai rồi vẽ mindmap cho những phần sai đó, map xem nó vô trong nhóm domain kiến thức nào, quả thật nó giúp ích khá nhiều trong việc bổ sung thêm những vấn đề mà tui đã quên hoặc thâm chí trong khi học không thấy đề cập đến. Công bằng mà nói thì việc luyện tập lại kiểu này so ra cũng rút ngắn đáng kể thời gian đọc hết toàn bộ docs có liên quan.

Đây là cái mindmap của tui theo 4 domain chính như trên https://aws.amazon.com/certification/certified-data-engineer-associate/

画像が読み込まれない場合はページを更新してみてください。

Đăng ký

Lần này tui đăng ký thi tại trung tâm SmartPro Training and Consulting. Nếu bạn muốn xem thêm thông tin về trung tâm thì có thể xem cảm nhận cá nhân của tui.

Tại sao lại thi offline trong khi có thể thi online quá tiện lợi, mỗi người sẽ có một số lựa chọn phù hợp, với tui là:

  • Chỉ cần đúng giờ đến nơi, mọi thứ còn lại để trung tâm lo.
  • Có thể gặp được các anh chị em cùng hội cùng thuyền. Đợt này gặp một anh lớn tuổi làm công ty Nhật cũng đi thi SAA.

Đợt thi này tui vô tình gặp một anh cũng mới bước sang ngưỡng cửa U50, thấy ảnh vậy mà còn đi thi SAA nên tui cũng đỡ thấy lẽ loi khi mà lâu lâu cứ đọc trúng mấy thread, IT xứ ta sau 30 tuổi không làm manager thì xong phim!

Ok, tui ko có nhiều kinh nghiệm thi online nên sẽ kể những khó khăn gặp phải ở lần đầu tiên thi và cũng lần đầu chọn hình thức online. Nghe có vẻ hơi mắc cười, nhưng đơn giản lần đầu tiên tui đăng ký thi trải qua nhiều khó khăn như dọn dẹp bàn làm việc, dọn dẹp phòng ốc, dọn dẹp cả máy tính vì đụng quá nhiều background process xong tới ngày thi thì hệ thống của họ sập 😂

Chuyện cũng khá dông dài và nhiều tình tiết cười ra nước mắt, bạn nào có thời gian thì có thể xem tại: https://anhdung.me/2022/01/09/trai-nghiem-dang-ky-pearson-vue-online-proctor-thi-aws/

Thực tế trải nghiệm

  • Redshift và Athena xuất hiện quá nhiều. Lâu lâu đá vô cả EMR, với một lô lốc từ khóa choáng ngợp kiểu Hadoop, Spark, HBase, Flink, Presto… Nhớ là có một câu hỏi liên quan đến persistent storage
  • Có những câu hỏi kiểu nếu ta chưa từng handons trúng ngay chỗ đó hoặc ta không học tủ thì chỉ có chọn đại. Mà khổ là lúc đó làm gì được lên random.org hay rút tiền coi số series bao nhiêu. Thí dụ hỏi loằn ngoằn tình hình huống tập đoàn XYZ nào đó làm cái App sịn sò gì đó, trong đó có dùng đến Redshift mà câu query đặc thù nào đó bỗng dưng chậm, vậy thì xem performance trong bảng nào. Tuy rằng chọn lựa chỉ có 4 đáp án nhưng bạn của tôi ơi, có đến 54 cái STL system views khác nhau mà cái nào nhìn cũng như cái nào, đoán ngữ nghĩa thì cái nào cũng thấy đúng 😂
  • Một vài dịch vụ mà tui thường bỏ qua lại có hỏi đến như Amazon Managed Workflows for Apache Airflow (MWAA), Amazon Managed Streaming for Apache Kafka (MSK)
  • Có những câu hỏi thật là khá xa chủ đề “data” chỗ một chút: một project có 2 branch A, branch B. Branch A đã deploy lên production trong tuần này, sau đó branch B cũng cần deploy sau đó. Hỏi người thợ đánh máy phải gõ gì trên bàn phím?
    • git rebase
    • git pull
    • git diff/ git commit
    • git gì đó quên mất rồi

Mấy chuyên gia xài SVN như tui nhìn vô mém tí xỉu luôn.

Nhớ là có đến 2 câu hỏi/ 65 câu trùng với khóa Practice Exams | AWS Certified Data Engineer - Associate, dù sao cũng an ủi là thời gian bỏ ra cũng mang lại thành quả.

Không như những lần trước: biết liền kết quả PASS/ FAILED hoặc xa xưa hơn là được in tờ giấy A4 chứng nhận tạm thời, lần này sau khi hoàn tất không có bất kỳ thông tin đậu rớt nào cả, đợi tầm 5h sau thì có kết quả, vẫn như thường lệ là badge trên Credly có trước, sau đó là đến mail của AWS Training and Certification.

Cảm ơn và chúc các bạn cũng may mắn như tui.

Biên soạn: Anh Dũng. Cover Photo by Diego PH on Unsplash.

Sài Gòn, ngày sắp Đông chí.