V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  noparking188  ›  全部回复第 5 页 / 共 62 页
回复总数  1223
1  2  3  4  5  6  7  8  9  10 ... 62  
2024-06-20 10:40:17 +08:00
回复了 noparking188 创建的主题 生活 上海也有梅雨季,嘉峪关亦有美食
@qianckjuan 谬赞了老哥,我就看了嘉峪关选调生小作文气不过有感而发,嘲讽一下武大黑奴、文科妓女
在这里问不如去问大头鹰
2024-06-05 14:04:26 +08:00
回复了 SkywalkerJi 创建的主题 Python 现在 Python 的 ui 是不是都用 Gradio 了,还有更好的选择吗?
Streamlit 挺不错的,而且提供免费的类似云上一键部署,分享分布很方便,不过如果复杂的前端展示和交互需求,建议就不要折腾了,很费解不讨好,直接前端写。
我前端时间试了用 streamlit 写了个小 web 应用,哈哈,可以参考: https://navisearch.streamlit.app/
@drymonfidelia 能不能补充,对于这样的数据量,你给的已知条件不够
1. 什么类型的数据,给个 sample ,或类似的 sample?
2. 试过切块压缩后的存储占用吗,比如切 10GB 一块,再行存压缩或者列存压缩后分布占用?
3. 最高有 256G 内存,那么计算资源( CPU 核)能有多少,SSD 读写达到多少?
4. 如果服务器为多台,带宽达到多少?
5. 结果文件是否要求为同样单个 CSV 文件?
6. 处理时间要求多少?
7. 任务为一次性的,还是后续有同样的需求,方案要能复用?

我有个想法可以讨论下:
1. Spark 或者 Hadoop 之类计算框架先做数据预处理,追加行号、数据值编码为整数,切块和压缩后存储(比如 10 GB 一块,parquet 格式 snappy 压缩)
2. 真正的计算任务就是对先前预处理后的数据进行处理,可以用 Spark ,或者 PrestoDB DB 这种 MPP 计算引擎

我想到的主要问题和瓶颈:
1. 数据量太大,还是单个文件,磁盘 IO 是主要耗时,所以要预处理做切块、编码、压缩,减轻任务计算时的 IO 压力;
2. 串行处理无法充分利用计算资源,所以要数据切块分区、利用成熟的分布式计算框架,比如 Spark

感觉这是一个工程问题,重在如何优化。

非常希望你能分享下后续,是否解决了,解决方案,感觉很有意思。
2024-02-25 14:07:49 +08:00
回复了 sitong 创建的主题 问与答 大家伙,帮帮我妹妹,我实在是没有办法
校园招聘上会找,抓住校招机会,本地企业单位政府会对这个学校有一定扶持
1. 海外运营(苏州有不少要出海的制造业、科技企业)
2. 苏州本地小学老师,不行就下面县
3. 考研机构助理老师(跟着考研,本校就行,下次校招可以去园区当中学老师)
https://i.imgur.com/io2SM1h.png 我就这学校毕业的,有需要可以留个联系方式我帮你问问
你投投专门做数据的公司,技能比较匹配,这些全部都用得上。杭州知道一个微风企,类似这种,找到匹配的企业,直接 25k+ 要。
2024-02-20 10:58:57 +08:00
回复了 dc2002007 创建的主题 职场话题 35 岁是 crud 的门槛还是所有技术从业者的门槛?
@kkk9 #18 你谈包工头那就说工地啦,也是个具体实例来讨论你这个大层面,也可以问问各行各业的 v 友,是干活的同事多,还是派活的领导多很多。
你换话题好奇赚多少,实话实说赚多赚少或者亏损都是常事,这是生意。
说实话没理解你的逻辑,思维太跳跃我跟不上。
感谢回复。
2024-02-20 10:49:29 +08:00
回复了 dc2002007 创建的主题 职场话题 35 岁是 crud 的门槛还是所有技术从业者的门槛?
@chuck1in #19 江浙沪水电工最低 350 一天
2024-02-20 10:43:24 +08:00
回复了 McreeWu 创建的主题 职场话题 怎么应对卷工作时长的新同事?
我觉得他在拍你马屁,刚来不熟多抱你大腿
2024-02-20 10:39:06 +08:00
回复了 BNineCoding 创建的主题 问与答 好像丁克的人过得都很好?是幸存者偏差吗?
丁克不谈,现在好多年轻小姑娘都不想生小孩,就算退步结婚了也不坚持不生小孩。唉
2024-02-20 10:33:07 +08:00
回复了 palegodenrod 创建的主题 职场话题 路该怎么走?
什么 Java 开发,那叫后端开发,直接海投,各种招聘网站都试,找各种内推渠道。拿到一个 offer 就算成功了。
2024-02-20 10:25:58 +08:00
回复了 dc2002007 创建的主题 职场话题 35 岁是 crud 的门槛还是所有技术从业者的门槛?
@kkk9 #7 我爸包工头,我也在工地搬砖过,你在瞎扯,工头和工人的比例最少也是 1/10 ,工头也要干活,还要做管理
2024-02-19 10:11:20 +08:00
回复了 QGabriel 创建的主题 Android 安卓手机拍照有能跟 iPhone 媲美的吗
同样价钱,我换了 小米 13ultra 顶配,而不是 iPhone 15 丐版,主要是考虑拍照好点,存储够大
2024-02-17 15:40:54 +08:00
回复了 lurui45 创建的主题 职场话题 30 了,还要出去工作吗
你现在这公司还能干几年
你们没有数据开发吧,这思路太后端了

OP 的最终需求就是校验 Oracle 迁移到 PostgreSQL 的数据,给了两个 CSV 是不能连数据库?

考虑以下点:
1. CSV 作为两边数据源的中间缓存,两边库导出的 CSV 就是错的,特殊字符转义等问题,这点就已经导致不一样;
2. 校验任务执行频率和执行时间要求;
3. 能否直连两边库;
4. 中间缓存对两边库数据类型的兼容统一,只能 CSV 跳过这点;

一次性比较我直接 cut sort comm ,写代码浪费生命。
经常跑、对比文件就直接 导入 DuckDB FULL OUTER JOIN 。

比较专业的方案 https://github.com/datafold/data-diff ,可以参考它的思路
2024-02-17 12:09:02 +08:00
回复了 HaLLS 创建的主题 Go 编程语言 求助,请各路大神指点指点我的未来吧...
同等学历考研
2024-02-11 17:39:21 +08:00
回复了 shuffblow 创建的主题 职场话题 佬们,帮忙看看 24 校招前端的简历
感觉不用改,都是细枝末节,精力用在投简历,找人内推啥的,先有面试机会,背八股文、刷刷 hot 200 够了。
你这 211 学历又英语好,可以尝试的机会很多。国企、传统行业外企啥的都试试。
2024-02-11 17:29:34 +08:00
回复了 lavalse 创建的主题 职场话题 一个大三 CS 学生的迷茫
你不喜欢的话只学 SQL 和英语就够了,可以不用编程,能快速上手各种工具在上面写 SQL 。甚至可以只要英语好点,然后校招进公司从零开始培训,用到啥学啥。
2024-02-09 10:22:50 +08:00
回复了 Poluk 创建的主题 职场话题 想请各位帮忙看下简历哪里还需要修改?
@Poluk #15 刷两周真题能读一个本三,认真复习三个月能读南工大南工程这种。
这个也是四年制全日制,修完全部专业课。真心建议你先去读本科,遇到资源好的老师还会带你去打比赛,保送大厂实习。本科入学不要搞虚的,直接刷 leetcode ,复习考研。
真心建议,兄弟听我一句劝,不害你。身边有很多例子,要听留个邮箱我发你。你读专科,大概率是小镇错题家,都是阶级兄弟,能救一个是一个。
2024-02-06 15:55:04 +08:00
回复了 stimw 创建的主题 Python pdm 还是 dev container?
virtualenv + pip + pycharm
1  2  3  4  5  6  7  8  9  10 ... 62  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5113 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 58ms · UTC 08:16 · PVG 16:16 · LAX 00:16 · JFK 03:16
♥ Do have faith in what you're doing.