NHIỆM VỤ CHÍNH
Kiến trúc & nền
tảng dữ liệu
- Tham gia dẫn dắt thiết kế và triển khai kiến trúc Data Lakehouse
trên Azure, đóng góp vào các quyết định công nghệ then chốt liên quan
đến:
- Azure Data Lake Storage Gen2
- Delta Lake
- Azure Synapse Analytics / Azure Databricks
- Xây dựng kiến trúc dữ liệu có khả năng mở rộng cao, tối ưu cho cả batch
processing và realtime/streaming.
Phát triển &
tối ưu pipeline dữ liệu
- Thiết kế, phát triển và tối ưu các pipeline ETL/ELT hiệu năng cao
từ nhiều nguồn dữ liệu: on-premise, cloud, streaming, API, file system.
- Đảm bảo pipeline có khả năng chịu lỗi, tự phục hồi, được giám
sát tốt và đáp ứng các yêu cầu SLA trong môi trường production.
- Xây dựng và vận hành các pipeline realtime/near-realtime phục
vụ trực tiếp cho các hệ thống phân tích và AI/ML.
Tích hợp &
phối hợp liên nhóm
- Đóng vai trò cầu nối kỹ thuật giữa Data Engineering với các nhóm AI/ML,
BI, DevOps và Product.
- Hỗ trợ tích hợp dữ liệu vào:
- Mô hình Machine Learning vận hành thực tế
(production)
- Hệ thống BI, dashboard và báo cáo thông minh
- Các ứng dụng phân tích dữ liệu phức tạp
- Phối hợp với đội hạ tầng và an ninh để thiết kế và vận hành hệ thống
dữ liệu an toàn, tuân thủ các quy định bảo mật và chính sách nội
bộ.
Hiệu năng &
quản trị dữ liệu
- Tiên phong triển khai các chiến lược tối ưu nâng cao cho lưu trữ và
truy vấn dữ liệu lớn (big data), cân bằng giữa hiệu năng – khả
năng mở rộng – chi phí.
- Thiết lập và thực thi các best practices về quản trị dữ liệu,
bao gồm:
- Khung đảm bảo chất lượng dữ liệu (Data Quality)
- Quản lý metadata tập trung
- Data lineage và theo dõi dòng chảy dữ liệu tự động
Chất lượng kỹ
thuật & chia sẻ tri thức
- Tham gia review code, review thiết kế kiến trúc và đảm bảo
tuân thủ coding standards.
- Mentoring và hỗ trợ phát triển năng lực cho các Data Engineer
junior.
- Xây
dựng và duy trì tài liệu kỹ thuật chất lượng cao, phục vụ chia sẻ tri thức và
vận hành hiệu quả giữa các đội sản phẩm và phân tích
YÊU CẦU CÔNG VIỆC
- Tốt nghiệp Đại học hoặc Thạc sĩ các chuyên ngành: Công nghệ Thông
tin, Khoa học Dữ liệu, Hệ thống Thông tin hoặc tương đương.
- Tối thiểu 5 năm kinh nghiệm trong vai trò Data Engineer, có
kinh nghiệm triển khai các giải pháp dữ liệu end-to-end ở môi
trường production.
- Bắt buộc có kinh nghiệm vận hành hệ thống dữ liệu quy mô lớn và
pipeline realtime ổn định.
- Kinh nghiệm chuyên sâu với Azure Cloud, đặc biệt:
- Azure Data Lake Storage Gen2
- Azure Synapse Analytics, Azure Data Factory, Azure
Databricks
- Công nghệ streaming: Azure Event Hub, Azure Stream
Analytics hoặc Apache Kafka
- Thành thạo SQL và ít nhất một ngôn ngữ lập trình như Python
hoặc PySpark.
- Hiểu biết vững chắc về tính toán phân tán và xử lý dữ liệu
lớn.
- Kinh nghiệm sâu trong thiết kế mô hình dữ liệu nâng cao (Star
Schema, Snowflake Schema), làm chủ kiến trúc Lakehouse và best
practices của Delta Lake.
- Có kinh nghiệm tích hợp dữ liệu trực tiếp phục vụ tầng AI/ML
là lợi thế lớn.
- Khả năng làm việc độc lập, chủ động và tiếp cận vấn đề theo tư duy
hệ thống.
- Kỹ năng phối hợp hiệu quả với các nhóm kỹ thuật khác (AI, DevOps,
Product…).
- Tư duy logic, phân tích và giải quyết vấn đề tốt.
- Sẵn sàng học hỏi công nghệ mới, thích nghi nhanh và chủ động thử
nghiệm các giải pháp mới.
CHẾ ĐỘ VÀ PHÚC LỢI