Tuyệt vời! Với vai trò là chuyên gia kỹ thuật Prompt, tôi sẽ tiến hành phân tích chi tiết mẫu prompt bạn cung cấp.
1. Phân tích Cấu trúc Prompt
Mẫu prompt này được thiết kế để yêu cầu một mô hình ngôn ngữ thực hiện một tác vụ cụ thể (kiểm tra tính nhất quán dữ liệu) trên một tập dữ liệu đã xác định và báo cáo kết quả. Cấu trúc của nó bao gồm các thành phần chính sau:
- Hành động chính: “Thực hiện kiểm tra tính nhất quán” – Chỉ định rõ nhiệm vụ mà mô hình cần thực hiện.
- Đối tượng bị tác động: “trên tập dữ liệu bất động sản [TÊN_TẬP_DỮ_LIỆU]” – Xác định rõ ngữ cảnh và nguồn dữ liệu cần xử lý.
- Phương thức/Chi tiết kiểm tra: “Phát hiện các mối quan hệ mâu thuẫn giữa các cột như [CẶP_CỘT_KIỂM_TRA] (ví dụ: diện tích âm, số phòng ngủ âm, giá trị không cao hơn diện tích).” – Cung cấp hướng dẫn cụ thể về loại mâu thuẫn cần tìm, đồng thời đưa ra các ví dụ minh họa để làm rõ ý nghĩa của “mâu thuẫn”.
- Kết quả mong muốn: “Báo cáo các bản ghi có vấn đề.” – Xác định đầu ra mong đợi từ mô hình.
Các thành phần trong ngoặc vuông `[]` là các biến cần được thay thế khi sử dụng mẫu prompt này:
[TÊN_TẬP_DỮ_LIỆU]
: Tên hoặc mô tả của tập dữ liệu bất động sản.[CẶP_CỘT_KIỂM_TRA]
: Một hoặc nhiều cặp tên cột (hoặc mô tả mối quan hệ giữa các cột) cần được kiểm tra tính nhất quán.
2. Ý nghĩa & Cách hoạt động
Về mặt kỹ thuật, mẫu prompt này định tuyến khả năng phân tích và suy luận của mô hình ngôn ngữ lớn (LLM) để thực hiện các bước sau:
- Hiểu ngữ cảnh: Mô hình nhận diện rằng nhiệm vụ liên quan đến “tập dữ liệu bất động sản” và “tính nhất quán”.
- Truy cập và xử lý dữ liệu (về mặt ý tưởng/mô phỏng): Mặc dù LLM không trực tiếp “truy cập” một file dữ liệu thực tế như một công cụ xử lý dữ liệu truyền thống, prompt yêu cầu nó mô phỏng hoặc suy luận về các quy tắc áp dụng cho dữ liệu đó. Khi bạn cung cấp dữ liệu (hoặc mô tả chi tiết nó), LLM sẽ áp dụng các quy tắc đã học để “kiểm tra”.
- Áp dụng logic suy luận: Với thông tin về `[CẶP_CỘT_KIỂM_TRA]` và các ví dụ, mô hình sẽ áp dụng các quy tắc logic để xác định các điểm mâu thuẫn. Ví dụ, quy tắc “diện tích âm” có nghĩa là giá trị của cột “diện tích” không được nhỏ hơn 0. Quy tắc “giá trị không cao hơn diện tích” có nghĩa là cột “giá trị” (có thể là giá bán) phải lớn hơn hoặc bằng cột “diện tích” (trong một số ngữ cảnh) hoặc có một mối quan hệ hợp lý khác tùy thuộc vào việc bạn định nghĩa nó như thế nào.
- Xác định các trường hợp ngoại lệ/mâu thuẫn: Dựa trên logic suy luận, mô hình sẽ tìm kiếm các “bản ghi” (hoặc các dòng dữ liệu) mà các quy tắc này bị vi phạm.
- Tạo báo cáo: Cuối cùng, mô hình tổng hợp các bản ghi vi phạm thành một báo cáo.
Ví dụ về cách các biến hoạt động:
- Nếu bạn thay `[TÊN_TẬP_DỮ_LIỆU]` bằng
"Danh sách căn hộ trung tâm thành phố"
. - Và `[CẶP_CỘT_KIỂM_TRA]` bằng
"diện tích, số phòng ngủ, giá bán"
(kèm theo các quy tắc ngầm hiểu hoặc rõ ràng như “diện tích > 0”, “số phòng ngủ >= 0”, “giá bán >= 0”, “giá bán / diện tích phải nằm trong một khoảng hợp lý, ví dụ không quá nhỏ hoặc quá lớn so với trung bình”).
Mô hình sẽ hiểu rằng nó cần xem xét tập dữ liệu về căn hộ, tìm các căn có diện tích nhỏ hơn hoặc bằng 0, số phòng ngủ nhỏ hơn 0, hoặc giá bán có vẻ không hợp lý so với diện tích (ví dụ đơn giá bán/mét vuông quá thấp).
3. Ví dụ Minh họa
Dưới đây là 2 ví dụ minh họa cách bạn có thể điền các biến vào mẫu prompt để tạo ra các lệnh cụ thể cho mô hình:
Ví dụ 1: Kiểm tra cơ bản trên tập dữ liệu nhà bán
Mẫu Prompt điền:
Thực hiện kiểm tra tính nhất quán trên tập dữ liệu bất động sản [TÊN_TẬP_DỮ_LIỆU: "Danh sách nhà đất bán khu vực ngoại ô"]. Phát hiện các mối quan hệ mâu thuẫn giữa các cột như [CẶP_CỘT_KIỂM_TRA: "diện tích mặt nước, diện tích xây dựng, số phòng tắm, năm xây dựng"] (ví dụ: diện tích âm, số phòng tắm âm, năm xây dựng trước năm 1900, diện tích xây dựng lớn hơn diện tích mặt nước). Báo cáo các bản ghi có vấn đề.
Mô hình có thể hiểu và thực hiện:
Mô hình sẽ tìm kiếm các bản ghi trong “Danh sách nhà đất bán khu vực ngoại ô” có các lỗi dữ liệu sau:
- Diện tích mặt nước âm.
- Diện tích xây dựng âm.
- Số phòng tắm âm.
- Năm xây dựng là một năm rất sớm (ví dụ: trước 1900).
- Diện tích xây dựng lớn hơn diện tích tổng thể của mặt nước/đất.
Ví dụ 2: Kiểm tra mối quan hệ giá/diện tích phức tạp hơn trên chung cư
Mẫu Prompt điền:
Thực hiện kiểm tra tính nhất quán trên tập dữ liệu bất động sản [TÊN_TẬP_DỮ_LIỆU: "Kho dữ liệu căn hộ cao cấp"]. Phát hiện các mối quan hệ mâu thuẫn giữa các cột như [CẶP_CỘT_KIỂM_TRA: "diện tích sử dụng, tổng giá bán, số phòng ngủ principal, số phòng ngủ phụ"] (ví dụ: diện tích sử dụng âm, tổng giá bán âm, số phòng ngủ principal âm, tổng giá bán không tương xứng với diện tích sử dụng và số phòng ngủ, ví dụ đơn giá/m2 quá thấp hoặc quá cao so với mặt bằng chung của phân khúc cao cấp). Báo cáo các bản ghi có vấn đề.
Mô hình có thể hiểu và thực hiện:
Mô hình sẽ phân tích “Kho dữ liệu căn hộ cao cấp” và tìm các vấn đề:
- Diện tích sử dụng âm.
- Tổng giá bán âm.
- Số phòng ngủ principal (chính) âm.
- Giá bán quá thấp hoặc quá cao một cách bất thường so với diện tích sử dụng và số lượng/tầm quan trọng của các phòng ngủ. Mô hình sẽ suy luận dựa trên ngữ cảnh “cao cấp” để xác định “tương xứng”.
👉 Tóm lại
Mẫu prompt này là một công cụ mạnh mẽ và linh hoạt để yêu cầu các mô hình ngôn ngữ lớn thực hiện kiểm tra tính nhất quán dữ liệu. Bằng cách chỉ định rõ ràng tập dữ liệu, các cặp cột cần kiểm tra và các ví dụ về mâu thuẫn, người dùng có thể định hướng mô hình một cách hiệu quả để phát hiện và báo cáo các lỗi dữ liệu quan trọng. Cấu trúc này cho phép tùy chỉnh cao, từ các kiểm tra logic đơn giản đến các mối quan hệ phức tạp hơn, giúp cải thiện đáng kể chất lượng và độ tin cậy của dữ liệu bất động sản.