1
Toùm taét luaän vaên thaïc só CNTT
Teân ñeà taøi:
Xaây döïng coâng cuï hoã trôï kinh doanh taïi sieâu thò mieãn thueá Theá Kyû Vaøng
Hoïc vieân: Phan Maïnh Thöôøng
khoùa:1
Ngöôøi höôùng daãn: TS.Traàn Haønh
Noäi dung:
1. Toång quan:
Khaùm phaù döõ lieäu hay coøn ñöôïc goïi laø khaùm phaù tri thöùc töø döõ lieäu ñaõ thu
huùt söï quan taâm trong giôùi khoa hoïc maùy tính vaø coâng ngheä tri thöùc. Nhieàu keát
quaû nghieân cöùu ñöôïc aùp duïng hieäu quaû vaøo thöïc teá cho thaáy ñaây laø moät vieäc laøm
thieát thöïc chöù khoâng ñôn thuaàn laø lyù thuyeát. Coù theå noùi söï thaønh coâng cuûa khaùm
phaù döõ lieäu chính laø söï keát hôïp caùc kyõ thuaät töø nhöõng lónh vöïc khaùc nhö trí tueä
nhaân taïo, hoïc maùy, xaùc xuaát thoáng keâ, lyù thuyeát thoâng tin, cô sôû döõ lieäu vaø tính
toaùn hieäu xuaát cao. Nhieäm vuï cuûa khaùm phaù döõ lieäu raát roäng lôùn bao goàm vieäc
phaân lôùp, döï baùo, gom nhoùm, khaùm phaù nhöõng quy luaät keát hôïp, khaùm phaù maãu
tuaàn töï. Nhöõng lónh vöïc ñöôïc aùp duïng khaùm phaù döõ lieäu thì raát nhieàu bao goàm
caùc öùng duïng trong thöông maïi, taøi chính, ngaân haøng, sinh hoïc, y khoa, giaùo duïc,
truyeàn thoâng vaø caû quaân söï…
Beân caïnh yeáu toá veà con ngöôøi thì nhöõng thoâng tin, quy luaät ruùt ra ñöôïc töø
vieäc phaân tích vaø xöû lyù döõ lieäu trong kinh doanh ñoùng vai troø raát quan troïng lieân
quan ñeán thaønh coâng hoaëc thaát baïi cuûa moät doanh nghieäp. Vieäc naém baét kòp thôøi
nhöõng thoâng tin thò tröôøng seõ giuùp cho doanh nghieäp chuû ñoäng trong vieäc tìm ra
nhöõng chieán löôïc, keá hoaïch kinh doanh phuø hôïp vaø ñem laïi hieäu quaû cao. Sieâu
thò mieãn thueá Theá Kyû Vaøng laø moät trong caùc sieâu thò tröïc thuoäc cuûa Cty TNHH
Thöông maïi Duy Anh, truï sôû chính ñaët taïi 202 Hoaøng Vaên Thuï, Q.Phuù Nhuaän,
1
2
TP HCM. Ban quaûn lyù sieâu thò luoân coù söï quan taâm ñaët muïc tieâu naâng cao doanh
soá vaø phaùt hieän, chaêm soùc toát caùc khaùch haøng tieàm naêng cuûa mình, tuy nhieân hoï
coøn thieáu nhöõng thoâng tin hoã trôï cho vieäc naøy.
Nguoàn döõ lieäu kinh doanh tröïc tieáp cuûa sieâu thò ñöôïc quaûn lyù bôûi heä thoáng
phaàn meàm baùn haøng taïi caùc quaày haøng vaø cô sôû döõ lieäu löu tröõ treân caùc maùy chuû,
nguoàn döõ lieäu naøy raát lôùn vaø lieân tuïc gia taêng theo thôøi gian. Tuy nhieân heä thoáng
phaàn meàm naøy laïi khoâng coù chöùc naêng phaân tích döõ lieäu toát, do ñoù nhu caàu veà
moät coâng cuï coù khaû naêng khai phaù nhöõng thoâng tin quyù giaù töø nguoàn döõ lieäu treân
ñeå hoã trôï cho kinh doanh laø raát caàn thieát
Kyõ thuaät khai phaù luaät keát hôïp coù khaû naêng aùp duïng toát trong vieäc khai
phaù moái lieân heä giöõa caùc maët haøng trong döõ lieäu giao taùc qua ñoù theå hieän xu
höôùng vaø thò hieáu tieâu duøng chung cuûa ña soá khaùch haøng. Nhöõng thoâng tin khai
phaù ñöôïc seõ giuùp ích cho nhieàu vaán ñeà, ví duï nhö caûi thieän caùch thöùc tröng baøy,
giôùi thieäu haøng hoaù trong sieâu thò, keá hoaïch nhaäp xuaát kho, khuyeán maõi …
2. Vaán ñeà giaûi quyeát:
Xöû lyù khoái löôïng döõ lieäu lôùn: Hieän taïi, sieâu thò coù khoaûng 10000 maët haøng
caùc loaïi, moãi thaùng soá hoaù ñôn baùn ra trung bình khoaûng 200000 hoaù ñôn. Sau
khi loïc boû bôùt nhöõng maët haøng khoâng thoâng duïng (döïa treân moät truy vaán SQL
theo doanh soá vaø soá löôïng) thì coøn khoaûng töø 2000 ñeán 3000 maët haøng trong
caùc giao taùc. Vôùi soá löôïng item vaø giao taùc nhö treân neáu duøng thuaät toaùn döïa
treân Apriori hoaëc thuaät toaùn khaùc nhöng phaûi qua giai ñoaïn phaùt sinh taäp öùng
vieân seõ khoâng hieäu quaû do hieän töôïng buøng noå toå hôïp
Döõ lieäu coù caùc thuoäc tính soá vaø phaân loaïi: cuï theå laø caùc thuoäc tính nhö: soá
löôïng, doanh thu, phaân loaïi maët haøng, giôùi tính, ñoä tuoåi… Vì theá vieäc aùp duïng
thuaät toaùn khai phaù luaät keát hôïp nhò phaân seõ khoù khaên, hôn nöõa caùc luaät tìm
ñöôïc coù theå khoâng chính xaùc do vaán ñeà rôøi raïc hoaù döõ lieäu gaây neân. Theâm
2
3
vaøo ñoù, caùc luaät naøy quaù cuï theå vaø khoâng haøm chöùa yù nghóa giaûi thích (deã
hình dung, deã hieåu vôùi ngöôøi duøng)
Khai phaù luaät keát hôïp: nhö vaán ñeà ñaõ neâu, do khoái löôïng döõ lieäu lôùn vaø
bao goàm caùc thuoäc tính soá, phaân loaïi neân vieäc choïn moät thuaät toaùn khai phaù
phuø hôïp vaø hieäu quaû laø vaán ñeà caàn quan taâm khi öùng duïng vaøo thöïc teá. Ñoái
vôùi caùc thuoäc tính phaân loaïi, ta coù theå duøng kyõ thuaät toång quaùt hoaù ñeå xöû lyù,
tuy nhieân vieäc naøy coù theå daãn ñeán gia taêng kích thöôùc döõ lieäu vaø khoù khaên
khi choïn phaân loaïi ñeå toång quaùt. Ñoái vôùi caùc thuoäc tính soá, neáu aùp duïng caùc
phöông phaùp rôøi raïc hoaù döõ lieäu seõ daãn ñeán moät soá vaán ñeà nhö: kích thöôùc döõ
lieäu gia taêng do soá item gia taêng theo caùc khoaûng chia rôøi raïc cuûa thuoäc tính
soá, caùc luaät tìm ñöôïc coù ñoä chính xaùc khoâng cao vaø quan troïng hôn laø noù
khoâng mang yeáu toá ngöõ nghóa, khoù hieåu vôùi ngöôøi duøng khoâng chuyeân. Vaán
ñeà naøy coù theå ñöôïc giaûi quyeát khi söû duïng kyõ thuaät khai phaù luaät keát hôïp môø,
kyõ thuaät naøy seõ cho ra caùc luaät coù ñoä chính xaùc töông ñoái, deã hieåu, deã giaûi
thích do vieäc söû duïng caùc nhaõn ñeå rôøi raïc hoaù döõ lieäu vaø chöùa ñöïng thoâng tin
thuù vò, höõu ích.
3. Caùch giaûi quyeát:
Khai phaù luaät keát hôïp toång quaùt môø
o ÖÙng duïng lyù thuyeát taäp môø trong vieäc rôøi raïc hoaù döõ lieäu soá coù giaù
trò lieân tuïc
o Trình baøy thuaät toaùn khai phaù luaät keát hôïp toång quaùt môø vôùi caûi
tieán döïa treân caáu truùc caây FP nhaèm gia taêng hieäu quaû cuûa thuaät toaùn.
Vieäc söû duïng caáu truùc caây FP giuùp coâ ñoïng thoâng tin trong database
ñoàng thôøi cuõng cho pheùp tìm kieám caùc taäp phoå bieán maø khoâng caàn
phaûi qua giai ñoaïn phaùt sinh caùc öùng vieân. Hôn nöõa vieäc söû duïng caây
3
4
FP giuùp giaûm thieåu toái ña soá laàn phaûi duyeät database laøm taêng hieäu
quaû thöïc thi
4. Caùc ñoùng goùp chính cuûa luaän vaên:
AÙp duïng caùc kyõ thuaät khai phaù döõ lieäu trong vieäc xaây döïng trieån khai caøi
ñaët öùng duïng khai phaù döõ lieäu döïa treân döõ lieäu kinh doanh cuûa sieâu thò mieãn thueá
Theá Kyû Vaøng (Golden Century) thuoäc coâng ty TNHH Duy Anh.
Ngoaøi ra luaän vaên cuõng ñeà xuaát moät thuaät toaùn caûi tieán cho vieäc khai
khoaùng caùc maãu phoå bieán maø khoâng caàn phaùt sinh öùng vieân nhaèm gia taêng hieäu
quaû thöïc thi. Thuaät toaùn naøy söû duïng caáu truùc caây Frequent Pattern (FP-tree) , noù
laø moät caáu truùc caây tieàn toá môû roäng ñeå löu tröõ coâ ñoïng caùc thoâng tin chuû yeáu veà
caùc maãu phoå bieán vaø phaùt trieån moät phöông phaùp hieäu quaû laø FP-Growth ñeå khai
khoaùng taäp ñaày ñuû caùc maãu phoå bieán baèng caùch ñeä quy gia taêng chieàu daøi maãu .
Hieäu quaû cuûa thuaät toaùn ñöôïc theå hieän qua caùc yeáu toá :
o Thu goïn cô sôû döõ lieäu lôùn nhaèm giaûm chi phí khi laëp laïi quaù trình
duyeät cô sôû döõ lieäu .
o Khai phaù döïa treân caây FP laøm theo phöông phaùp gia taêng ñoä daøi
caùc maãu ñeå traùnh chi phí phaùt sinh moät soá löôïng lôùn caùc taäp öùng vieân.
o Phöông phaùp phaân chia ñeå taùch coâng vieäc khai khoaùng thaønh moät
taäp caùc coâng vieäc nhoû hôn ñeå khai khoaùng caùc maãu coù raøng buoäc
trong caùc cô sôû döõ lieäu coù ñieàu kieän.
4
5
5. Phaàn caøi ñaët:
Moät soá thoâng tin kyõ thuaät lieân quan ñeán chöông trình caøi ñaët ñöôïc lieät keâ
trong baûng 1 beân döôùi.
Baûng 1 : Thoâng tin chöông trình caøi ñaët
Thông tin chương trình cài đặt
Ngôn ngữ
Visual Basic
Công cụ phát triển
MS Visual Studio IDE 6.0
Kiểu ứng dụng
Ứng dụng Windows 32 bit
Hệ điều hành
Microsoft Windows 2000, XP
Môi trường hoạt động
Độc lập
Cơ sở dữ liệu
Microsoft SQL Server 7, 2000
Kết nối cơ sở dữ liệu
ADODB
Cấu hình máy chạy (tối thiểu)
PC CPU 1.2GHz, RAM 256MB, HDD 10GB…
Cấu hình đề nghị
PC CPU 2.4GHz, RAM 1GB, HDD 80GB…
Döïa vaøo CSDL baùn haøng cuûa Sieâu thò mieãn thueá Theá Kyû Vaøng, xaây döïng
coâng cuï khai phaù luaät keát hôïp môø vôùi moät soá giao dieän chöùc naêng:
Giao dieän chính
5
6
Giao dieän hieäu chænh caáu truùc phaân caáp Taxonomy
Giao dieän khai baùo haøm thaønh vieân
6
7
Giao dieän khai phaù luaät keát hôïp
Giao dieän keát quaû
7
8
6. Taøi lieäu tham khaûo:
Tieáng vieät
[1] Hoàng Kiếm, Đỗ Văn Nhơn, Đỗ Phúc (2002), Các Hệ Cơ sở tri thức.
[2] Đỗ Phúc (2004), Giáo trình Data warehouse – Data mining, TTCNTTĐHQG TPHCM
[3] Phạm Thị Bạch Huệ (2001), Khai khoáng dữ liệu- Tìm luật có hiệu quả
ứng dụng cao từ tập luật kết hợp, Luận văn Thạc sĩ Tin Học, Trường Đại
học KHTN, TP.HCM
[4] Nguyễn Hà Giang (2004), Khám phá luật kết hợp mờ và ứng dụng, Luận
văn Thạc sĩ Tin học, Trường Đại học Khoa học Tự Nhiên.
[5] Lê Thanh Minh (2002), Khai khoáng dữ liệu phục vụ giáo dục và đào tạo
tại Kiên Giang, Luận văn Thạc sĩ Tin học, Trường Đại học KHTN,
TP.HCM
[6] Nguyễn Quốc Thông (2002), Phát triển một số ứng dụng khai thác dữ
liệu vào giáo dục đào tạo, Luận văn Thạc sĩ Tin học, trường Đại học
KHTN, TP.HCM.
[7] Nguyễn Đăng Tỵ (2001), Ứng dụng khai khoáng dữ liệu trong phân tích
dữ liệu thống kê, Luận văn Thạc sĩ Tin học, Trường Đại học KHTN,
TP.HCM.
[8] Hồ Anh Tài (2004), Ứng dụng kỹ thuật khai thác dữ liệu trong nghiệp vụ
xử lý cước điện thoại tại bưu điện tỉnh Ninh Thuận, Luận văn Thạc sĩ Tin
học, trường Đại học KHTN, TP.HCM.
8
9
Tiếng Anh
[9] Berry, J.A., & Linoff, G. (1997). Data mining techniques: For marketing,
sales, and customer support. New York: Wiley
[10] Berry, J.A., & Linoff, G. (2000). Mastering data mining: the art and
science of customer relationship management. New York: Wiley.
[11] Berson, A., Smith, K., & Thearing, K. (2000). Building data mining
applications for CRM. New York: McGraw-Hill.
[12] Han, J., & Fu, Y. (1995). Discovery of multiple-level association rules
from large database. Proceedings of the International Conference on very
large Data Bases.
[13] Han, J., & Kamber, M. (2001). Data mining: concepts and techniques.
Loas Altos, CA: Morgan Kaufmann.
[14] Piatetsky-Shapiro, G.Frawley, WJ. (1991), “Knowledge discovery in
Databases“, AAAI Press/The MIT Press, Menlo Park, California, USA.
[15] R.Agrawal, T. Imielienski, and A. Swami (1993), “Mining Association
Rules between Sets of items in Large Databases”, proc. Conf. on
management of data, ACM Press, New York, pp. 207 – 216.
[16] R. Agrawal and R. Srikant (June 1994), “Fast algrorithms for mining
association rules in large database’. Research Report RJ 9839, IBM
Almaden Research center, San Jose, California.
[17] Keith C.C. Chan and W.H.Au (1997), “Mining Fuzzy Association
Rules”, in Proc. Of the 6th Int’l Conf. on Information and Knowledge
Management, Las Vegas, Nevada, pp. 209-215
[18] Fu, A.et al.(1998), “Finding fuzzy sets for the mining of association rules
for numerical attributes”, in Proceeding of 1st Intl. Symposium on
Intelligent Data Engineering and Learning (IDEAL’98), pp. 263-268
9
10
[19] Attila Gyenesei (2000), “A fuzzy approach for mining quantitative
association rules”, TUCS technical report 336, University of Turku,
Department of Computer Science, Lemminkisenkatu 14, Finland
[20] Tzung-Pei Hong, K.Y.L., S.L.W.(2003), “Fuzzy data mining for
interesting generalized association rules”, Fuzzy Sets and Systems 138,
pp.255-269
[21] J. Han, J. Pei, and Y. Yin: “Mining frequent patterns without candidate
generation”. In Proc. ACM-SIGMOD’2000, pp. 1-12, Dallas, TX, May
2000
[22] Cheung, W., and Osmar, R.Z. Incremental mining of frequent patterns
without candidate generation or support constraint. In proc. of 7 th
IDEAS’03, Hong Kong, 2003, pp. 111-116
[23] Wang, J., Han, J., Lu, Y. and Tzvetkov, P. TFP: An efficient algorithm
for mining top-k frequent closed itemsets. In proc. of IEEE Knowledge
an Data Engineering, vol 17, no.5, 2005, pp. 652-663
[24] Hirate, Y., Iwahashi, E., and Yamana, H. TF2P-Growth: An efficient
algorithm for mining frequent patterns without any thresholds. In proc.
of ICDM 2004
[25] Quang, T.M., Oyanagi, S., and Yamazaki, K. Mining the k-most
interesting frequent patterns. In proc. of Information Processing Society
of Japan, 68th National Conference, Tokyo, Japan, 2006
[26] Hima Vallikona (December 2003), Association Rule Mining over
Multiple Database: Partitioned and Incremental Approaches. Master
thesis. The University of Texas at Arlington
10
- Xem thêm -