开启左侧

大数据

[复制链接]
分享到:
发表于 2015-10-29 11:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?注册

x
五个简单故事告诉你什么是“大数据”
. r! Q% R# Q" \4 P+ C
在今天,大数据被人们用来描述和定义信息爆炸时代产生的海量数据,而大数据的潜在价值存在于对数据的分析和挖掘。在凌乱纷繁的海量数据背后,表达了互联网用户日常生活中什么样的感觉与情绪?一些领先机构试水发掘大数据价值,这样的案例在社会中已崭露头角。
: q4 m- Z2 N8 y5 i7 a2 r3 j
20130325023235619.jpg

" Z( |* G/ J7 M9 H& j

+ q7 Q& w, G" s
  故事一 跑步时听什么音乐是个大问题
  作为全球最大的运动品牌公司之一,耐克曾在官网上公布了这样两则信息:“在冬天,http://country.huanqiu.com/america人比欧洲和非洲人都更喜欢跑步这项运动,但美国人平均每次跑步的长度和时间都比欧洲人短。”所以耐克计划在不同的市场区域做好不同的产品划分,运动鞋的设计也根据区域的不同做了独立调整。另外,“在全球跑步爱好者中,每次人均跑步时间为35分钟。同时,在跑步中听取的音乐,点播率最高的是黑眼豆豆的《Pump it》”。时间和歌曲的具体信息,都可以直接影响耐克在下阶段市场营销的新想法。
  解析:运动中的数据价值
  耐克的成功和市场上的特立独行正是来源于对自身产品和消费者的数据挖掘。早在2006年,耐克就和苹果公司合作发布了捆绑iPod的NikePlus产品和平台。通过运动鞋里的一个感测器系统,使用者在跑步时的相关数据会被记录在耐克全球数据库里,NikePlus.com上有实时数据更新,使用者对自己跑步的公里数、消耗的卡路里以及路径都了如指掌,还可以分享并关注朋友们取得的进步。这个创新不仅仅使NikePlus变成了体育运动爱好者的Facebook,耐克也成功建立了全球最大的运动相关的网上社区(超过500万的活跃注册用户,上传超过几十亿公里数和几百亿卡路里数)。
  故事二 比父母更了解他们的孩子
  2012年年初,一名美国男子闯入了他家附近的超市,“你们怎么能这样!”男人向店铺经理大吼道,“你们竟然给我女儿发婴儿尿片和童车的优惠券,她才17岁!”店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这个愤怒的父亲打来电话道歉,因为超市发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。
  解析:数据追踪顾客的需求
  大数据的价值在美国零售业早已得到运用,以Tesco(乐购)为例,这家全球利润第二大的零售商从其会员卡的用户购买记录中,充分了解一个用户是什么“类别”的客人,并基于这些分类进行一系列的业务活动。比如,创建了一套女性购买行为在怀孕期间产生变化的模型,不仅如此,如果用户从他们的店铺中购买了婴儿用品,在接下来的几年中就会根据婴儿的生长周期情况定期给这些顾客推送相关产品,使这些客户形成长期的忠诚度。诸如此类的应用,在国际零售行业巨头中已屡见不鲜。数据的力量,不仅让商家提升了自己的业绩,还让客户为之心甘情愿买单。
  故事三 成为地震救援中的英雄
  在2010年http://country.huanqiu.com/haiti发生地震时,海地人散落在全国各地,由于当地的通信本身并不发达,援助机构为弄清该向哪里提供援助而急得手忙脚乱。传统上,他们只能通过飞临灾区上空或赶赴灾区现场来查找需要援助的人群。另一边,Ushahidi(一家独立的信息分析平台)通过广播公布了手机短信紧急求助号码,结果收到了数千条有关被困人员的信息。散居在美国各地的大量海地裔美国人翻译了这些信息,并把它们标注在“危机地图”上。Ushahidi的志愿者们向海地的美国海岸警卫队发送即时消息,告诉他们搜寻地点,最终成功营救了当地居民。
  解析:数据救人一命
  救命英雄正是来自东非http://country.huanqiu.com/kenya的一个开源数据分析平台——Ushahidi,它们一直收集和追踪有关暴乱、难民、强奸、死亡等事件的短信报告工作,并按照报告者提供的位置在地图上标明这些事件,并从中分析事件频发的位置,从而进行预测和加强管制。与新闻报道和灾害应对小组相比,Ushahidi可以在更短的时间内收集到更多的证据,这些证据的基础便是来源于对数据分析而进行准确的地理定位,通过实时变化的地图信息来实施营救计划,在灾害面前,只有数据是最为冷静和理性的。
  故事四 发现试图犯罪的苗头
  总部位于美国犹他州桑迪市的Secure Alert监控中心曾经发现一个加州的假释者每天下午2点左右都出现在同一个路口。进一步的调查显示,该路口是一个学校巴士停靠站。这里本该是学生聚集的地方,四处也并无其他公共设施,人群较为稀少。于是该公司将这个情况上报到更高层级,并且将该报告通知当地警察部门,以做好准备。最终在假释者试图诱拐一名学生时,便衣警察直接将其逮捕,数月的路径跟踪在公堂上成为了有力证据。
  解析:用数据抵御犯罪
  Secure Alert公司其实是一家定位技术的提供者,公司正致力于通过进一步自动化从监控到地理位置调查的过程,来增强系统的预测能力。实际上,Secure Alert公司提供了一种内置定位功能的脚环,这种脚环被应用于跟踪预审被告、假释罪犯和缓刑罪犯。该技术使得警察和法院能够实时跟踪和监控犯罪分子,有助于执法者提前预测犯罪行为。Secure Alert的这项预测服务,原理并不复杂,复杂的是将类似的数据收集并形成模式,从中分析作案途径和手法,以便能在任何时间内检测到犯罪分子活动的不寻常模式。
  故事五 通过网络情绪预测股市
  http://country.huanqiu.com/united_kingdom的一名80后外汇交易员保罗·霍廷从3位信息学教授那里获得灵感,随后与他们联手推出了一款利用推特来预测股票走势的对冲基金Derwent Capital(德温特资本),并大胆承诺,公司推出的交易策略可以获得的年回报率高达15%—20%。如此的雄心豪情来源于公司成功的测试效率,他们通过推特上的情绪性词语可以在一定程度用于预测道琼斯工业指数的变化。结果表明人们在网上的情绪变化会在2—6天后影响到指数的变化,研究者称,这使得他们预测的成功率高达87.6%。
  解析:数据挖掘进行时
  Derwent的创始者们并非最早利用推特预测的人。这家微博网站目前已有高达2亿用户群体,早就被用来预测从电影票房到美国和英国选举的很多事情。而Derwent公司利用计算机程序,每天通过对3亿条推文的抽样,抓取例如“我感觉”、“我认为”、“让我觉得”等表达投资者和公众情绪的语句进行分析、归纳,然后做出推断。他们的试验虽然有待时间的校验,但大数据挖掘的价值已经成为不可轻视的科学热流。


转载请保留当前帖子的链接:http://www.beimeilife.com/thread-2500-1-1.html 谢谢!
发表于 2015-10-29 12:00 | 显示全部楼层
當大數據充斥各種場合,從馬雲到釋昭慧都侃侃而談,你還能不懂什麼是大數據嗎?你也許已經聽過無數的大數據神話,但對於大數據仍停留在一知半解階段,《數位時代》專訪各大大數據專家,整理出你最應該知道的大數據十問。
Q:大數據是什麼?
A:大數據(Big Data)又被稱為巨量資料,其概念其實就是過去10年廣泛用於企業內部的資料分析、商業智慧(Business Intelligence)和統計應用之大成。但大數據現在不只是資料處理工具,更是一種企業思維和商業模式,因為資料量急速成長、儲存設備成本下降、軟體技術進化和雲端環境成熟等種種客觀條件就位,方才讓資料分析從過去的洞悉歷史進化到預測未來,甚至是破舊立新,開創從所未見的商業模式。
一般而言,大數據的定義是Volume(容量)、Velocity(速度)和Variety(多樣性),但也有人另外加上Veracity(真實性)和Value(價值)兩個V。但其實不論是幾V,大數據的資料特質和傳統資料最大的不同是,資料來源多元、種類繁多,大多是非結構化資料,而且更新速度非常快,導致資料量大增。而要用大數據創造價值,不得不注意數據的真實性。
Q:為什麼需要大數據?
A:因為當從人到機器都已經被數據解構,數據不僅僅是歐巴馬口中的石油或是黃金,它更是血液,貫穿每個人一生中每個生命階段。這並非危言聳聽,更不是科幻電影,而是正在逐步成真的現實。
例如有一款叫做Ovia Fertility的App,藉由分析30萬名會員的數據,開發演算法,精準計算排卵期,提高懷孕的機率,這個App已幫助5萬名會員成功懷孕。又比如Workday推出一套軟體,預測員工的薪水漲幅和可能跳槽時間,幫助企業決定每名員工的加薪幅度、時間點和轉職時機。理財也逃不過大數據的掌控,騰訊就於年初推出第一家用大數據決定借貸與否的銀行,微眾銀行結合辨識人臉和公安部門資料,決定借貸者的信用等級。
從懷孕生子、工作到理財,大數據將全面影響每個人與每家企業。對企業而言,大數據可望提升服務品質、增加管理效率、幫助決策和創造商業模式;對一般民眾而言,大數據是另一個自我,它可能比本人更了解本人,為你預先解決每個未知,當一切都開始數據化,你能夠不需要數據嗎?
Q:大數據一定要很大嗎?
A:雖然大數據的狹義定義是,資料量要在100TB到PB之間,但其實絕大多數的企業,都不符合這個標準,大企業如eBay、亞馬遜或AT&T或許符合大數據的標準。但其實資料量只是大數據的其中一個面向,大數據揭示的是一種「資料經濟」的精神,而非只是「大」。
「大,是大數據中最無趣的部分。」天睿資訊(Teradata)首席技術長寶立明(Stephen Brobst)認為,企業真正要尋找的是非傳統的、而且未曾被挖掘過的資料,並且從這些資料中去提煉出價值,這才是對大數據應有的正確認知,而非只是執著於資料大小,只要能從看似毫無意義的數據礦坑中挖掘出金礦,有誰會在意那座礦坑原本是大得像座山還是小得像狗屋呢?和沛科技創辦人翟本喬就指出,大數據這個名字容易讓人誤導,因為真正重要的其實是大智慧。大數據不只是說資料量有多大,速度快和資料量大都可以用技術輕易解決,但種類(Variety)比較需要智慧。
Q:沒有大數據就不能用大數據嗎?
A:非也,建置大數據架構與環境的確所費不貲,一般中小企業通常無法輕易投入鉅額成本,但大數據時代的精神在於如何妥善利用既有或非傳統資料,從中挖掘出新商機,因此即使是中小企業甚或者是新創企業,都能在大數據時代用「大數據」。
就技術面來說,現在有許多業者開始提供建置成本較低的大數據處理工具和雲端系統,有些甚至跟App一樣,只要根據自身需求挑選需要購買的功能即可,例如科智提供的工業化數據管理工具即為一例。另一方面,很多時候中小企業其實不需要建設大數據系統。中研院資訊科學研究所研究員陳昇瑋即指出,在絕大多數情況下,大數據專案其實不需要建置Hadoop系統,特別是台灣的社群媒體沒那麼發達,而是直接採用國外的居多,資料都不在自己手上,與其盲目追求技術和工具,不如先用小量資料去驗證一個概念,是否能將資料轉換成商業機會,再來決定要不要建置大數據的作業環境。
大數據領域權威麥爾苟伯格(Viktor Mayer-Schönberger)在《大數據》一書中便提及,大公司有巨量資料的規模優勢,但小公司有成本及創新上的優勢,小公司因為速度夠快、靈活度高,就算維持小規模,還是能夠蓬勃發展。
Q:我要怎麼開始進行大數據專案?
A:設置專門統籌大數據專案的部門和職銜是第一步,而且層級越高越好,企業領導人必須足夠正視大數據的力量,才能帶動整個組織重視數據的文化。Etu負責人蔣居裕便指出,大數據其實是管理問題,而非技術問題,缺少跨部門協作,大數據專案很難有個美好的開始。
第二步,切勿陷入大數據迷思,與其急著想用數據變現,不如先回頭看看自己企業內部的問題為何,先定義問題,再試圖用數據找解方。阿里巴巴集團副總裁車品覺建議,與其整天想著大數據,不如先整頓自己企業內部的數據,很多時候光是企業內部的數據就問題叢生,不同部門之間的數據無法相容,「整個數據在一個中小企業裡面也是四分五裂,在這個地方沒做好的情況下,居然說你想用大數據,其實是有點難以理解。」
发表于 2015-10-29 12:01 | 显示全部楼层
當大數據充斥各種場合,從馬雲到釋昭慧都侃侃而談,你還能不懂什麼是大數據嗎?你也許已經聽過無數的大數據神話,但對於大數據仍停留在一知半解階段,《數位時代》專訪各大大數據專家,整理出你最應該知道的大數據十問。
Q:大數據從哪來?
A:任何地方。隨著物聯網興起,任何以前不可能產生資料的東西或地方都可能「資料化」。天睿資訊(Teradata)首席技術長寶立明認為大數據的發展可以分成三階段,正說明了大數據的來源多樣化:.com時期、社群網路時期和物聯網時期。早在2000年初網路熱潮興起,人們就已經開始研究log資料,蒐集使用者的cookie和搜尋行為等。而社群網路如Facebook或Twitter將人們的互動關係數據化,這些社群數據創造了大量的商業價值。而第三階段物聯網時期,可能是最有趣的階段,無論是機器還是人都開始被數據解構,數據可能來自手錶、鞋墊甚至皮帶,這些物聯網數據將是接下來重要的數據分析對象。
Q:大數據有什麼風險?
A:傳統商業分析會有的風險,大數據也都會有,這並非大數據才有的問題,「個資安全問題」一直都存在,只是隨著資料來源越來越多且資料量越來越大,資安問題更顯迫切罷了。市場研究機構Gartner研究副總裁布萊恩(Brian Prentice)指出,大數據本身並沒有資安問題,問題在企業應用資料的方式,Gartner預測2018年,企業違反商業倫理的案件中,有近50%都來自不當的大數據應用。
另一值得關切的是大數據可能帶來的「資料獨裁問題」,根據大數據領域權威麥爾苟伯格(Viktor Mayer-Schönberger)的說法,資料獨裁指的是任由資料來管控我們,盲目受到分析結果的制約,導致濫用或誤用資料。例如根據數據分析將人群分類,其實有可能會把個體給標籤化,甚至污名化某些族群,想像未來若我們用數據預先打擊犯罪,那會是什麼情景?
Q:Big Data和Open Data有什麼不一樣?
A:開放資料(Open Data)是大數據的一種,但大數據不等同於開放資料。開放資料是指將原本受私人組織或公部門管理的原始資料無條件地開放出來,供任何人使用。近年來討論度較高的是公部門的原始資料,許多民間團體主張公部門資料本為民眾所有,除非涉及個人隱私,否則公部門應無條件開放資料,讓民間可以介接資料,除了瀏覽,還可以加值應用。
對新創企業而言,開放資料是非常好的資源,當創新遇上開放資料,很可能激起無盡想像。例如http://muyueh.com/seeall/創辦人李慕約就利用政府開放的農產品即時價值資料,設計出果菜花終端機,用視覺化的圖表呈現農糧署累積近20年的資料。
Q:什麼產業特別需要大數據解決方案?
A:根據Gartner的報告,媒體傳播業、銀行業和服務業最早導入大數據,保險業、零售業和醫療照護業預計在兩年內導入,但阿里巴巴副總裁車品覺指出,以後任何一種產品或服務都潛藏著巨大的「數據化」潛力,企業需要加強對數據的重視,更加注重數據的蒐集和整理工作。
根據《大數據@工作力》一書作者湯瑪斯.戴文波特(Thomas H. Davenport)的說法,他根據資料量、所有權和資料應用程度,將產業分成高成就者、資料劣勢者和低成就者。高成就者是那些擁有大量數據,而且已經展現出優異的數據分析成果的企業,例如消費性商品、保險業者、互聯網公司、旅遊、運輸和信用卡公司。在所有互聯網公司中,又以電子商務業者對數據的應用最直接和強烈。以全球最大的電商平台阿里巴巴為例,阿里巴巴假貨問題向來猖獗,但透過分析商品文字、圖片描述、權利人投訴,甚至是社交媒體等16種維度的數據,結合大數據打假貨,現在阿里巴巴有90%以上的下架商品都是大數據系統主動出擊發現的。
而低成就者是坐擁大量資料,但因法規限制或思維僵化等原因,還沒利用數據變現的產業,如媒體、電信、銀行和零售,但其中仍不乏已開始使用數據的例子。例如大型零售業者卡特琳娜行銷集團(Catalina Marketing)就藉由分析超過1億人的消費紀錄,結合旗下5萬5千家零售店舖的POS機資料,交叉比對顧客的消費紀錄,針對顧客的消費喜好發送優惠券,提高行銷效率。
資料劣勢者則是手邊資料不多,或是雖有足夠資料,卻缺乏完整結構的業者,也較缺乏資料分析能力,例如許多B2B公司沒有辦法接觸到第一線的消費者,而是提供服務給下游廠商,致其先天上就沒有第一手資料。值得注意的是,醫藥機構雖然被戴文波特列為資料劣勢者,但這是因為美國的病歷電子化程度低,不若台灣擁有全世界最完整的國民健保資料庫,因此台灣的醫療機構應是低成就者,而非資料劣勢者。

使用高级回帖 (可批量传图、插入视频等)快速回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则   Ctrl + Enter 快速发布  

发帖时请遵守我国法律,网站会将有关你发帖内容、时间以及发帖IP地址等记录保留,只要接到合法请求,即会将信息提供给有关政府机构。
快速回复 返回顶部 返回列表