و هیچ ربطی به مهارت های فنی شما ندارند
در نهایت تمامی داده ها پاکسازی و آماده تجزیه و تحلیل شدند. اندی با اشتیاق بیش از حد شروع به تجسم داده ها برای دریافت اولین برداشت از داده ها کرد. او ابعاد و متغیرهای زیادی داشت به طوری که چندین روز را صرف تجزیه و تحلیل بصری آنها و تعیین بهترین روش ها برای اعمال کرد. در پایان آن هفته، مدیر تیم به او گفت که سه شنبه آینده به یک پیش نویس در مورد نتایج نیاز دارد زیرا مدیر تیم باید آن را در یک هفته به کمیته راهبری ارائه می کرد.
اندی به او گفت که هنوز نتیجه ای نگرفته است. اما فضایی برای مذاکره وجود نداشت. روز سهشنبه، نتیجهگیری باید ارائه میشد و در یک ارائه پاورپوینت ادغام میشد.
اندی با عجله چند تحلیل رگرسیون تولید کرد و آنها را در ارائه ادغام کرد.
پس از جلسه کمیته راهبری، مدیر تیم به او گفت که این پروژه ادامه نخواهد داشت.
اندی بسیار ناامید بود. این دومین پروژه او بود و بار دوم با همین تصمیم به پایان رسید. او این موقعیت را به دلیل پتانسیل انجام کار بزرگ علم داده بر روی حجم زیادی از داده های موجود انتخاب کرده است.
این داستان یک مورد واقعی است و یک وضعیت غیر معمول در شرکت ها نیست. من فرض می کنم که برخی از شما قبلاً نیز وضعیت مشابهی را تجربه کرده اید.
دلیل اینکه این اتفاق می افتد مهارت های شما نیست.
هنگامی که در یک پروژه علم داده در یک محیط شرکتی پرتاب می شود، وضعیت با زمینه یادگیری قبلی متفاوت است.
تجربه من این است که با توجه به محدودیت ها و انتظارات شرکت، اکثر دانشمندان داده برای مدیریت پروژه تلاش می کنند.
بیش از چند دانشمند داده پس از اولین پروژه ها ناامید و ناامید شده اند و به دنبال موقعیت دیگری هستند.
آنها در مدیریت داده ها، روش های فنی و برنامه نویسی آموزش دیده اند. هیچ کس هرگز به آنها در مدیریت داده های پروژه، ذینفعان یا شرکت ها آموزش نداده یا آنها را در مورد KPIهای تجاری شرکتی آموزش نداده است.
این عدم تجربه در مورد شیوه های ناگفته شرکت است.
متأسفانه، مشکلات احتمالی در آن زمینه بیشتر از تمام مهارت های فنی شما وجود دارد.
اگر عوامل تعیین کننده را می دانید، می توانید وظایف علم داده خود را بر اساس آن برنامه ریزی کنید، پروژه های رضایت بخشی را دنبال کنید و کار خود را هدایت کنید.
در ادامه، هشت عامل مهم برای انتخاب رویکرد مدل در محیط شرکت و نحوه کاهش آنها را به شما ارائه می دهم.
1. زمان، جدول زمانی، و ضرب الاجل
چه چیزی میخواهید بدانید
شرکت ها فرآیندهای پروژه را تعریف کرده اند. جلسات کمیته مرحله یا رهبری بخشی از مواردی است که باید نتایج ارائه شود. ارائه ها باید چند روز قبل ارسال شود و باید حاوی اطلاعات مورد انتظار خاص باشد. همچنین ، شرکت ها همیشه برای ارائه نتایج مالی تحت فشار هستند. این منجر به مهلت های مداوم محکم می شود. این فرایندها بخشی از فرهنگ سازمانی ، ناگفته است و تصور می شود کارمند آنها را می شناسد.
چگونه به آن بپردازیم؟
بپرسید ، بپرسید ، بپرسید. در مورد نقاط عطف ، به عنوان مثال ، تاریخ جلسه که تصمیمات پروژه گرفته می شود ، بپرسید.
بودجه زمانی تنظیم کنید. از تاریخ Milestone شروع کنید و یک برنامه پروژه را به عقب محاسبه کنید.
نه تنها وظایف خود بلکه اقدامات اطراف خود را نیز شامل کنید ، مانند جلسات هماهنگی ، سخنرانی ها و مهلت های ارائه ارائه ها. فراموش نکنید که برای هر ارائه یک دور بررسی وجود دارد ، و باید قبل از ارسال ، چند روز اضافه کنید. حاشیه زمانی را برای کارهای غیر منتظره و عیب یابی درج کنید.
فقط در این صورت ، رویکردهایی را برای توانایی انجام آن در برنامه تعیین شده انتخاب کنید. روش هایی را انتخاب کنید که به سرعت اجرا شود و در جایی که آشنا هستید. پس از چند نتیجه موفق و امیدوارم که هنوز هم زمان ، با روشهای پیچیده تر و جدید تری آزمایش کنید.
منابع انسانی (HR) فوراً به الگوهای عوامل موفقیت آمیز مدیریت HR در بخش های تجاری و افراد نیاز داشت. با تنظیم برنامه بر اساس مهلت ، ما تصمیم گرفتیم که فقط رگرسیون خطی ساده را انجام دهیم بدون اینکه هیچگونه وابستگی متقابل از چنین عوامل موفقیت آمیز کلیدی ، به عنوان مثال ، سطح آموزش و بخش های آموزشی حضور داشته باشد. ما روی متناسب بودن مدل های ساده تر و داشتن فاکتورهای سهم واحد با قابلیت اطمینان بالا متمرکز شدیم.
2. دقت مورد نیاز مدل ها و نتایج
چه چیزی میخواهید بدانید
موجود و آماده استفاده از داده ها ، دقت یک مدل را تعیین می کند. بنابراین ، سطح جزئیات یک مدل و دانه بندی داده ها باید مطابقت داشته باشد. همین مورد در مورد انتظارات از دانه بندی نتیجه نیز صادق است. این روش باید انتظارات را مطابقت دهد. هرگونه عدم تطابق نتایج غیرقابل اعتماد را ارائه می دهد.
چگونه به آن بپردازیم؟
با توجه به دانه بندی داده های موجود ، مدل را انتخاب کنید. در صورت عدم وجود اطلاعات مناسب ، وقت خود را برای متناسب کردن یک مدل بسیار دقیق و دقیق هدر ندهید. جمع آوری داده ها و استفاده از یک مدل گرانول کمتر در هنگام نداشتن داده های با کیفیت خوب ، نتایج قابل اطمینان تری می بخشد.
هنگامی که سطح صحت مورد نیاز برای تصمیم گیری با سطحی که توسط داده ها حاصل می شود مطابقت ندارد ، باید آن را در اسرع وقت تشدید کنید. سعی نکنید چیزی درست کنید. فقط ارتباطات شفاف کمک می کند ، از شگفتی جلوگیری می کند و انتظارات را مدیریت می کند. در غیر این صورت ، شما سرزنش خواهید شد.
هنگامی که ما الگوهای تأثیرگذار برای سودآوری خانه های سالمندان را مورد تجزیه و تحلیل قرار دادیم ، داده های گرانول بیش از حد ناهمگن بوده و نتایج به معنای اقتصادی نبوده است. بنابراین ، ما داده ها را جمع کردیم و از مدل های ساده تر استفاده کردیم. براساس نتایج ، مرجع می تواند از قبل تصمیمات اساسی بگیرد و دستورالعمل هایی را برای مدیریت و جمع آوری داده های آینده در نظر بگیرد.
3. ارتباط روشها
چه چیزی میخواهید بدانید
مشکل مناسب باید با یک روش مناسب حل شود. سؤالی که باید پاسخ داده شود باید واضح باشد. نباید ابهام اجازه دهد. همچنین ، شکل نتایج باید با سایر تحلیل های داخلی و خارجی قابل مقایسه باشد. هر دو جهت روش مربوطه را که باید استفاده شود اشاره می کنند.
چگونه به آن بپردازیم؟
اطمینان حاصل کنید که سوالی را که باید پاسخ داده شود درک کرده اید. لطفا آن را فرض نکنید! پرسیدن! وقتی راه حلی با دقیق ترین روش دارید بلکه به یک سوال اشتباه کمک نمی کنید ، کمکی نمی کند.
بر اساس آن ، می توانید تعیین کنید که آیا در زمینه توصیفی ، پیش بینی کننده یا تجویز قرار دارد. اگر تأثیرگذارترین عوامل مورد توجه قرار می گیرد ، روشهای توصیفی را انتخاب کنید. هنگامی که سؤال پیش بینی است ، یک رویکرد پیش بینی کننده را انتخاب کنید ، و فقط در هنگام تصمیم گیری بهینه سازی تحت تأثیر مختلف ، هدف است ، مدل های تجویز را انتخاب کنید. سعی نکنید خلاق باشید. تجربه من این است که در بیشتر موارد اشتباه پیش می رود.
سه سال پیش ، تیم سابق من به شدت با من مخالفت کرد و برای اجرای یک روش جدید سری مد روز برای پیش بینی های بازگشت دارایی تلاش کرده بود. سرانجام ، آنها فقط آن را اعدام کردند - اوه ، بله ، من عصبانی شدم ، اما ما به دلیل مهلت نتوانستیم به عقب برگردیم. به مدت سه سال ، آنها بدون انجام تلاش های تنظیم زیادی تلاش کردند تا نتایج کافی کسب کنند. به تازگی ، یکی از اعضای تیم سابق من به من گفت که آنها سرانجام به مدل قدیمی بازگشتند زیرا مدل جدید شامل چندین ویژگی برای نتیجه نبود اما به سر و صدای زیادی افزود.
4- دقت داده ها
چه چیزی میخواهید بدانید
صحت داده ها باعث محدودیت استخر روشهای ممکن می شود. روشهای بسیار دقیق در صورت استفاده از داده های کمتر دقیق ، هیچ مقداری را به همراه نمی آورند. اصطلاح خطا زیاد خواهد بود. باز هم ، دقت داده ها و صحت روش ها باید مطابقت داشته باشد. کیفیت بد بر نتایج تأثیر می گذارد - زباله در زباله.
چگونه به آن بپردازیم؟
داده ها و همچنین الزامات مدل ها را درک کنید. فقط روشها را به دلایل امتحان و خطا اعمال نکنید. فقط روشها را تکرار نکنید زیرا در موارد مشابه ، نتایج بسیار خوبی کسب کرده است. شما باید آنها را متناسب با الزامات دقت داده ها تنظیم کنید.
در بهینه سازی ظرفیت های اتاق عمل دو بیمارستان ، ما مجبور شدیم دو روش مختلف را اعمال کنیم. در یک بیمارستان ، داده های دانه ای برای هر نقطه زمانی عمل ، به عنوان مثال ، شروع بیهوشی ، ورود به اتاق عمل ، شروع عمل جراحی و غیره در دسترس بود. داده ها به دلیل ضبط الکترونیکی در زمان واقعی از کیفیت خوبی برخوردار بودند.
در بیمارستان دیگر ، داده ها به صورت دستی و گاهی با ساعت های تاخیر ثبت شد و بنابراین ، داده ها بسیار نادرست بودند. به عنوان مثال ، داده ها هشت عمل جراحی را در شش اتاق عمل به طور موازی نشان داده است.
در حالت اول ، ما می توانیم سریال های زمانی گرانول و مدل های مبتنی بر عامل را متناسب کنیم و فصلی داده ها را در نظر بگیریم. در مقابل ، در مورد دوم ، ما مجبور شدیم مدل ها را بازسازی کنیم و با تجزیه و تحلیل رگرسیون کار کنیم و ناسازگاری ها را قبل از استفاده از آنها به عنوان ورودی برای یک مدل مبتنی بر عامل گرانول کمتر کار کنیم.
5- در دسترس بودن و هزینه داده ها برای آماده سازی داده ها
چه چیزی میخواهید بدانید
هر چند وقت یک بار شنیده ام که "ما می توانستیم این و این داده ها را داشته باشیم ، مدل کاملی خواهیم داشت ، اما متأسفانه ، ما نمی توانیم به موقع به آنها دسترسی پیدا کنیم." یک واقعیت این است که امروز ، شرکت ها فقط می توانند از 12 ٪ و حدود استفاده کنند30 ٪ از داده های آنها. در بحث هایی که من دارم ، شرکت ها بیشتر بیان می کنند که آنها حدود 20 ٪ از داده های خود را استفاده می کنند. هزینه دسترسی به آنها ، در بیشتر موارد ، بسیار زیاد است و هیچ مورد تجاری معادل در دسترس نیست. اگر هیچ مورد تجاری هزینه تهیه داده ها را در بر نگیرد ، داده ها را به موقع دریافت نمی کنید.
چگونه به آن بپردازیم؟
قبل از اینکه تمام افکار خود را در مورد مدل های فانتزی داشته باشید ، می توانید ، روشن کنید ، چه داده هایی را در موعد مقرر و هزینه دریافت آنها در دسترس است. فقط به این دلیل که "داده ها در یک شرکت در دسترس است" ، به این معنی نیست که در یک بازه زمانی معقول و با هزینه مناسب در دسترس است.
داده ها را بر اساس هفت درایور دیگر ارائه شده در این مقاله در اولویت قرار دهید و در هر مورد تجزیه و تحلیل هزینه و سود را ایجاد کنید: سود اضافی از دیدگاه تجارت هنگام داشتن داده ها در مقایسه با هزینه دریافت آنها چیست. هرگز نپرسید ، "آیا می توانید تمام داده ها را به من بدهید؟"این نشان می دهد که شما هیچ درک از فرآیندهای تجاری شرکت ها ندارید ، و در صورت نیاز به پشتیبانی ، به عنوان مثال ، از آن ، از اولویت منصرف خواهید شد.
ما به طور غیر منتظره ای با مسائل مربوط به قالب ذخیره سازی در کار تشخیص الگوی بر روی داده های نقدینگی درون روز جهانی بانک روبرو شده بودیم. داده های یکی از مجموعه داده های مورد نیاز معاملات از سال قبل روی نوارهای مغناطیسی بایگانی شده است. بنابراین ، چندین ماه طول می کشد تا داده ها به دلیل چرخه انتشار و تبدیل به قالب های در دسترس در دسترس باشند. ما مجبور شدیم داده های جایگزین را ارزیابی کنیم و مدل ها را تنظیم کنیم.
6. حریم خصوصی و محرمانه بودن داده ها
چه چیزی میخواهید بدانید
داده های مشتری اغلب محرمانه هستند. حریم خصوصی داده ها توسط قوانین ، به عنوان مثال ، GDPR در اتحادیه اروپا یا CCPA در ایالت کالیفرنیا تنظیم می شود. مؤسسات مالی مقررات خاص خود را برای محافظت از داده های به اصطلاح CID دارند-اطلاعات شناسایی مشتری. دسترسی به چنین داده هایی فقط افراد مجاز را داشته است و دانشمندان داده به ندرت در بین آنها هستند. داده ها فقط می توانند در فرم های ناشناس ، رمزگذاری شده یا جمع شده و پس از تأیید صاحبان داده ها ، افسر امنیتی و مشاور حقوقی استفاده شوند.
چگونه به آن بپردازیم؟
قبل از شروع پروژه ، توضیح دهید که آیا داده های شخصی که تحت این محدودیت ها قرار دارند در پروژه علوم داده شما درگیر هستند یا خیر. اگر بله ، در اسرع وقت ، از یک طرف با آن ، به آن بپردازید ، زیرا آنها در نهایت ابزارهای رمزگذاری برای مقابله با آن ، از طرف دیگر با مشاوره حقوقی دارند. فقط پس از داشتن همه مصوبات و رمزگذاری مناسب ، با داده ها کار کنید. من بسیاری از پروژه ها را دیده ام که نمی توانند به دلیل اعمال حریم خصوصی داده ها انجام شوند بلکه به این دلیل که به اواخر خطاب شده بود و زمان کافی برای دریافت مصوبات و رمزگذاری داده ها در زمان مناسب وجود نداشت.
در پروژه ای که باید از داده های معامله کارت اعتباری برای تجزیه و تحلیل خدمات شخص ثالث استفاده شود ، وکلا برای روشن کردن و تأیید استفاده از داده ها به هفت ماه نیاز داشتند. توضیحات نه تنها جنبه های قانونی بلکه روش رمزگذاری ، سطح تجمع که باید مورد استفاده قرار گیرد ، و الزامات فنی مانند حقوق دسترسی و کانتینر سازی نرم افزار را شامل می شود.
7. در دسترس بودن منابع، زیرساخت ها و ابزارها
چه چیزی میخواهید بدانید
پروژه ها در یک محیط شرکتی دارای بخش های مختلفی هستند: فناوری اطلاعات، کسب و کار، یک تیم نوآوری، یا یک گروه مشاوره داخلی. همه به طور موازی در چندین پروژه مشارکت دارند و زمان آنها محدود است.
شما نیاز به ذخیره سازی و قدرت محاسباتی دارید. قوانین شرکتی در مورد نصب نرم افزار وجود دارد و تأییدیه های مربوطه مورد نیاز است. اگر ابزاری هزینه دارد و نیاز به مجوز دارد، فرآیند تأیید شرکت وجود دارد. به عنوان یک دانشمند داده، شما نه تنها به پایتون و نوت بوک Jupyter نیاز دارید، بلکه به احتمال زیاد به ابزارهای دیگری مانند Tableau یا Alteryx نیاز دارید. برخی از شرکت ها به کانتینرهایی مانند Docker نیاز دارند. و برخی از ابزارها طبق خط مشی شرکت مجاز نیستند.
چگونه به آن بپردازیم؟
قبل از شروع پروژه واقعی، ابزارها و زیرساخت ها را روشن کنید. ذخیره سازی و توان محاسباتی مورد نیاز را تخمین بزنید و از در دسترس بودن آن اطمینان حاصل کنید. خط مشی شرکت در مورد نرم افزار علم داده و ابزارهای موجود را روشن کنید. افراد بخش های دیگر را زودتر از حمایت های آتی مورد نیاز برای برنامه ریزی زمان اختصاصی مطلع کنید. هنگامی که در یک تیم علم داده از قبل موجود کار می کنید، می توانید ابتدا این موضوع را با مدیر خط خود روشن کنید. اما حتی در یک تیم معتبر علم داده، تصور نکنید که همه چیزهایی که برای یک پروژه نیاز دارید در جای خود است.
در حالی که روی حجم زیادی از داده های تراکنش در یک بانک کار می کردیم، به قدرت محاسباتی و ذخیره سازی بیشتری نیاز داشتیم. ما در یک محیط ابری خصوصی کار میکردیم و معمولاً فقط چند دقیقه تا چند ساعت طول میکشد تا ظرفیت اضافه شود. با این حال، از آنجایی که ما با دادههای شناسایی مشتری کار کردیم، در یک محیط به اصطلاح منطقه قرمز، یک منطقه مجازی با امنیت بسیار محدود، زیرساخت نیاز به تأیید «منطقه قرمز» توسط افسر امنیتی دارد. و این دو هفته طول کشید.
8. KPIهای مدیریت محصول و پروژه شرکت
چه چیزی میخواهید بدانید
شرکت ها مدیریت محصول و پروژه را با KPI می سنجند. معیارهای کمی مانند ارزش فعلی خالص برای پروژه های کوتاه مدت یا نقطه سربه سر برای محصولات وجود دارد. و مزایای کیفی مانند کوتاه شدن زمان برای بازاریابی، یادگیری پروژه ای که می تواند برای پروژه های دیگر استفاده شود و غیره وجود دارد. تصمیم گیری ها و تصویب پروژه ها بر اساس چنین معیارهایی است.
چگونه به آن بپردازیم؟
این مهم نیست که نتایج کار علوم داده شما چقدر عالی باشد. همیشه باید به KPI های شرکت ترجمه شود. بنابراین ، با مدیر خط خود روشن کنید که اقدامات فرمان شرکت چیست. نتایج خود را به این معیارها ترجمه کرده و از مزایای این شرکت ارتباط برقرار کنید. تجربه من این است که تصمیم گیرندگان پروژه های کمتری را متوقف می کنند ، بیشتر در فرآیندهای شرکت اجرا می شوند و در آخر ، اعتماد زیادی به کار تیم علوم داده ایجاد می کند.
یکی از بخش های یک شرکت علوم زندگی برای ماه ها تلاش کردند تا بودجه داخلی را برای پروژه های علوم داده در نظر گرفته شده خود ، حتی فکر ، داده و علم داده ها ستون هایی در استراتژی شرکت دریافت کنند. آنها سرانجام از من می خواهند که از آنها حمایت کنم. ما فهمیدیم که بخش دارایی دارای الگوهای سرمایه گذاری برای پروژه ها ، از جمله معیارهای شرکت است. بنابراین ، ما از آنها خواستیم که آن الگوی را انجام دهند و تمام طرح های علوم داده را در چنین معابد جمع آوری کنیم. پس از دور ارائه بعدی ، آنها 60 ٪ از کل پروژه های خود را تصویب کردند. ماشه این بود که کمیته اجرایی اکنون می تواند آن را با KPI های شرکت و عملکرد سایر پروژه ها مقایسه کند.
اتصال نقاط
بسیاری از دانشمندان داده نمی دانند که کار در یک محیط شرکتی تا 80 ٪ سایر کارها را نسبت به تنظیم مدل ها و تجزیه و تحلیل داده ها شامل می شود. و در نهایت ، وقتی همه نظرات من را می خوانید ، کمی ناامید می شوید.
اما دانستن عوامل فوق و پرداختن به آنها به اندازه کافی زود ، و طرفدار فعال شما را به صندلی راننده باز می گرداند و از شگفتی های بد جلوگیری می کند. هدف این است که تا حد ممکن آزادی را برای کارهای ما بدست آوریم. این موفقیت پروژه را افزایش می دهد ، و می توانید وقت آزاد را برای انجام آزمایشات با رویکردهای پیچیده تر و جدید تر نگه دارید.
دانشمندان داده در مدیریت چنین عواملی آموزش دیده و اغلب انتظار آنها را ندارند. مدیریت صحیح آنها از همه دانش فنی دقیق شما مهمتر است.
تمام نکات و ترفندهای من برای رسیدگی به این عوامل تعیین کننده نه علوم موشکی و نه راز است. اما افزایش آگاهی از آنها بسیار مهم است. امیدوارم بتوانم با پروژه های خود کنترل و سرگرمی بیشتری داشته باشید.